426. Tabular Playground Series - Mar 2021 | tabular-playground-series-mar-2021
大家好!😊
比赛已经结束。我是 Kaggle 的一名新手/贡献者,我想分享一些想法和经验教训。
首先,感谢所有参与者。你们的 Notebook 和话题非常有用。我从中学到了很多。以下是一些资源:
https://www.kaggle.com/craigmthomas/tps-mar-2021-stacked-starter
https://www.kaggle.com/hiro5299834/tps-mar-2021-rank-averaging-and-stacking
https://www.kaggle.com/rmiperrier/tps-mar-lgbm-optuna
https://www.kaggle.com/davidedwards1/tabularmarch21-dae-starter-cv-inference
https://www.kaggle.com/c/tabular-playground-series-mar-2021/discussion/225929
https://www.kaggle.com/tunguz/tps-mar-2021-eda
https://www.kaggle.com/siavrez/kerasembeddings
https://www.kaggle.com/theawm/0-8917-stratified-kfold-xgboost-eda
总的来说,我很欣赏这场友好比赛的回合。我还记得一月份比赛中我的第一个“严肃”模型:一个线性回归 😅😅。老实说,我对我的表现和技能的提升感到非常高兴。感谢 Kaggle 社区。
无论如何,关于我的解决方案,像所有参与者一样,我使用了一个堆叠模型。此时此刻,我的代码还很乱……肯定在这个周末我会整理好。这是一个承诺,嗯,是对我自己的承诺。
目前,我提一下一些一般性的概念。
集成: Lightgbm、Xgboost、Catboost……这些模型遵循特定的算法。学习其文档以对其进行优化是一项任务。此外,不要忘记其他“单一”模型,如逻辑回归、支持向量机、直方图梯度提升、神经网络……
堆叠: 组合多样化的模型。这符合逻辑,如果一个模型失败了,另一个模型会修正它。并且只使用每种类型模型中最好的模型。更多信息请点击 这里。
过拟合: 提交的表示应该是通用的。你不能在没有基础的情况下提出一个模型,这独立于公共分数,所以我建议使用训练信息来提出预测……这听起来很明显,但这是避免过拟合的方法,同时定义正则化,查看验证分数并在新的观察中使用你的模型。
数据泄露: 一些参与者上传了其 Notebook 及其分数。我认为结合你的模型和新模型是非常合乎逻辑的。然而,这种方式可能是不正确的。因此,有必要审查其来源并评估新信息是否良好,或者其添加是否增加了分数(这里有一个观察,如果分数很高,可能也存在数据泄露,例如预测丢失了);请记住,如果你添加一个模型,另一个模型在模型中的参与度会降低,至少在我的第二阶段建模中的 Ridge 回归是这样。
……好了,现在轮到学习神经网络了,那些自动编码器,那些未见和损坏数据的理论……TensorFlow 和 Keras 框架以及深度学习那个令人敬畏的世界!