大家好,可能也有运气成分,但我成功进入了前10名。
以下是我采用的方法:
- 通过特征工程创建两个新数据集(查看详情笔记本)
- 基于这些新数据集,我使用OOF预测构建了两个堆叠模型(参考笔记本):
堆叠模型1: LGBM、梯度提升、CatBoost、随机森林
堆叠模型2: KNN、逻辑回归、XGB、AdaBoost、ExtraTrees
两个堆叠均使用逻辑回归作为一级模型 - 将两个堆叠模型的预测结果进行平均融合
最终构建的模型虽然复杂,但我认为核心优势来自于特征工程过程。对于本次比赛(以及所有数据科学竞赛)的最佳建议是:忽略公共排行榜分数,专注于优化你的交叉验证分数。我采用的是简单的10折交叉验证方法。