651. Playground Series - Season 5, Episode 5 | playground-series-s5e5
首先,祝贺所有在这场大规模排名震荡中幸存下来的选手。我并不能说这让我感到意外。我曾在这里写过一篇关于潜在即将到来的排名震荡的文章,并分享了我对此事的看法。本月数据集非常大,虽然起初我并未预料到会发生排名震荡,但在提交了几次作品后,情况很快发生了变化。
我训练了包含和不包含原始数据集的模型,但大多数模型是在没有原始数据集的情况下训练的。正如我在这里提到的,原始数据集并没有带来太大的改进。使用额外数据训练的模型主要是早期实验的一部分,旨在评估其有用性。
除此之外,我没有做太多预处理。除了将 Sex 列从类别转换为整数值外,我训练模型时没有进行任何特征工程或预处理。
我使用了标准梯度提升模型和 AutoGluon。后者在本月竞争力不强,所以我仅使用了早期实验中的四个模型。我的大多数模型是 CatBoost,因为它被证明是最强的单一模型。
我尝试了 Ridge、Lasso、AutoGluon 和爬山算法(hill climbing)进行集成。爬山算法显示出最好的交叉验证(CV)分数,但最终 Ridge 胜出。AutoGluon 在交叉验证(CV)或排行榜(LB)分数方面表现不佳。有趣的是,我有一个使用 AutoGluon 作为集成器的提交,它本可以获得第 3 名。然而,我没有选择它,因为它既没有强大的交叉验证(CV)分数,也没有强大的排行榜(LB)分数。
如果你从这次讨论中只记住一件事,那就是:相信你的交叉验证(CV)并避免无脑融合。融合笔记本已成为游乐场竞赛中的一个严重问题。它们严重过拟合排行榜(LB),可能会误导初学者,让他们认为这是获胜的有效策略。越来越难找到高质量的公开笔记本,因为许多排名靠前的笔记本都是融合方案,其权重经过手动调整以过拟合公共排行榜(LB)。
我希望这种趋势能够改变,社区开始更多地关注学习并遵守数据科学的最佳实践,而不是无脑融合他人的工作。
祝大家一切顺利。