[Top 1%] Lessons of this competition... again

[Top 1%] 本次比赛的教训……再一次

作者： Lázaro | 排名： 11 | 发布时间： 2021-04-01

大家好！😊
比赛已经结束。我是 Kaggle 的一名新手/贡献者，我想分享一些想法和经验教训。

首先，感谢所有参与者。你们的 Notebook 和话题非常有用。我从中学到了很多。以下是一些资源：
https://www.kaggle.com/craigmthomas/tps-mar-2021-stacked-starter
https://www.kaggle.com/hiro5299834/tps-mar-2021-rank-averaging-and-stacking
https://www.kaggle.com/rmiperrier/tps-mar-lgbm-optuna
https://www.kaggle.com/davidedwards1/tabularmarch21-dae-starter-cv-inference
https://www.kaggle.com/c/tabular-playground-series-mar-2021/discussion/225929
https://www.kaggle.com/tunguz/tps-mar-2021-eda
https://www.kaggle.com/siavrez/kerasembeddings
https://www.kaggle.com/theawm/0-8917-stratified-kfold-xgboost-eda

总的来说，我很欣赏这场友好比赛的回合。我还记得一月份比赛中我的第一个“严肃”模型：一个线性回归 😅😅。老实说，我对我的表现和技能的提升感到非常高兴。感谢 Kaggle 社区。

无论如何，关于我的解决方案，像所有参与者一样，我使用了一个堆叠模型。此时此刻，我的代码还很乱……肯定在这个周末我会整理好。这是一个承诺，嗯，是对我自己的承诺。

目前，我提一下一些一般性的概念。

集成： Lightgbm、Xgboost、Catboost……这些模型遵循特定的算法。学习其文档以对其进行优化是一项任务。此外，不要忘记其他“单一”模型，如逻辑回归、支持向量机、直方图梯度提升、神经网络……

堆叠： 组合多样化的模型。这符合逻辑，如果一个模型失败了，另一个模型会修正它。并且只使用每种类型模型中最好的模型。更多信息请点击这里。

过拟合： 提交的表示应该是通用的。你不能在没有基础的情况下提出一个模型，这独立于公共分数，所以我建议使用训练信息来提出预测……这听起来很明显，但这是避免过拟合的方法，同时定义正则化，查看验证分数并在新的观察中使用你的模型。

数据泄露： 一些参与者上传了其 Notebook 及其分数。我认为结合你的模型和新模型是非常合乎逻辑的。然而，这种方式可能是不正确的。因此，有必要审查其来源并评估新信息是否良好，或者其添加是否增加了分数（这里有一个观察，如果分数很高，可能也存在数据泄露，例如预测丢失了）；请记住，如果你添加一个模型，另一个模型在模型中的参与度会降低，至少在我的第二阶段建模中的 Ridge 回归是这样。

……好了，现在轮到学习神经网络了，那些自动编码器，那些未见和损坏数据的理论……TensorFlow 和 Keras 框架以及深度学习那个令人敬畏的世界！

[Top 1%] 本次比赛的教训……再一次

同比赛其他方案