第 7 名解决方案 - Mahdi Ravaghi

第 7 名解决方案

作者：Mahdi Ravaghi (Master)
发布日期：2025 年 6 月 1 日
竞赛排名：第 7 名

首先，祝贺所有在这场大规模排名震荡中幸存下来的选手。我并不能说这让我感到意外。我曾在这里写过一篇关于潜在即将到来的排名震荡的文章，并分享了我对此事的看法。本月数据集非常大，虽然起初我并未预料到会发生排名震荡，但在提交了几次作品后，情况很快发生了变化。

数据预处理

我训练了包含和不包含原始数据集的模型，但大多数模型是在没有原始数据集的情况下训练的。正如我在这里提到的，原始数据集并没有带来太大的改进。使用额外数据训练的模型主要是早期实验的一部分，旨在评估其有用性。

除此之外，我没有做太多预处理。除了将 Sex 列从类别转换为整数值外，我训练模型时没有进行任何特征工程或预处理。

建模

我使用了标准梯度提升模型和 AutoGluon。后者在本月竞争力不强，所以我仅使用了早期实验中的四个模型。我的大多数模型是 CatBoost，因为它被证明是最强的单一模型。

模型集成

我尝试了 Ridge、Lasso、AutoGluon 和爬山算法（hill climbing）进行集成。爬山算法显示出最好的交叉验证（CV）分数，但最终 Ridge 胜出。AutoGluon 在交叉验证（CV）或排行榜（LB）分数方面表现不佳。有趣的是，我有一个使用 AutoGluon 作为集成器的提交，它本可以获得第 3 名。然而，我没有选择它，因为它既没有强大的交叉验证（CV）分数，也没有强大的排行榜（LB）分数。

结语

如果你从这次讨论中只记住一件事，那就是：相信你的交叉验证（CV）并避免无脑融合。融合笔记本已成为游乐场竞赛中的一个严重问题。它们严重过拟合排行榜（LB），可能会误导初学者，让他们认为这是获胜的有效策略。越来越难找到高质量的公开笔记本，因为许多排名靠前的笔记本都是融合方案，其权重经过手动调整以过拟合公共排行榜（LB）。

我希望这种趋势能够改变，社区开始更多地关注学习并遵守数据科学的最佳实践，而不是无脑融合他人的工作。

祝大家一切顺利。

7th place solution

第 7 名解决方案

数据预处理

建模

模型集成

结语

同比赛其他方案