Rank 28 approach - diversity and CV prevail! | 优胜方案

第 28 名方案 - 多样性与交叉验证（CV）至上！

作者: Ravi Ramakrishnan (Grandmaster)
发布日期: 2025-07-01
竞赛排名: 28

大家好，

感谢 Kaggle 在过去一个月里提供了一个相当不错的 Playground 系列赛。我相信很多人是第一次使用 MAP@3 指标，我认为这次体验相当棒！我也想向论坛贡献者们的慷慨表示诚挚的感谢，并祝贺高分解决方案的参与者。

我的方法试图在保持交叉验证（CV）与排行榜（LB）关系一致的前提下，尽可能注入多样性。多样性可以通过特征和模型选择来实现，我在流程中选择了这两个要素。详情如下图所示：

方案流程图

特征工程

如图所示，我选择确保以下几点：

我使用了如下 10 折交叉验证方案：
KFold(10, random_state = 42, shuffle = True)
我在不同的特征集选项上训练了大量不同的 boosting 树模型，并构建了超过 70 个具有不同特征集的单模型。
我观察到，在类别表示的数据集上，一个参数为 depth = 8, learning_rate = 0.01 的单 XGBoost 模型表现最佳。当我追加 1 个训练数据 + 6-8 个原始数据集时，该模型获得了最佳的 CV 分数。
大多数模型在使用 AUC/Logloss 代理指标进行早停（early stopping）时表现不佳。使用更多的估计器数量（即 10000）有很大帮助，尽管训练时间更长。
Catboost 在使用训练特征时表现最差，但作为堆叠（stacker）模型表现非常好。
LightGBM 和 LightGBM GOSS 表现中等，为集成学习提供了所需的多样性。
我还使用了一个 Autogluon 流程（1 个训练 + 1 个原始数据），获得了 0.345 的 CV 分数。尽管其单独表现不佳，但我从该流程中使用了一些单模型以增加多样性。

这里并没有产生显著的收益。我选择了以下方法，成功率各不相同：

Autogluon 堆叠器：使用不同的模型选择构建了 3 个 Autogluon 堆叠模型。
Torch 神经网络：使用不同的模型选择构建了 4 个堆叠模型。
最终融合：我选择使用 CuML Hill Climber（爬山算法）来融合集成模型和所有单模型。它与任何其他爬山算法相同，但它使用 cupy 和 cudf 而不是 pandas 和 numpy。我有一个用于此的私有设置，并经常在竞赛中使用它。

我将重点介绍我的一些模型 Across 的 CV 分数范围，如下表所示：

我使用了以下 GPU 套件进行模型训练：

祝愿大家在即将到来的竞赛中以及职业生涯中一切顺利！
快乐学习，致以最诚挚的问候！

训练好的模型 https://www.kaggle.com/datasets/ravi20076/playgrounds5e6models 基准代码 (Baseline Work) https://www.kaggle.com/code/ravi20076/playgrounds5e6-public-baseline-v1 -- 基准工作，大多数私有模型均使用此代码训练

致敬，
Ravi Ramakrishnan