657. Playground Series - Season 5, Episode 6 | playground-series-s5e6
大家好,
感谢 Kaggle 在过去一个月里提供了一个相当不错的 Playground 系列赛。我相信很多人是第一次使用 MAP@3 指标,我认为这次体验相当棒!我也想向论坛贡献者们的慷慨表示诚挚的感谢,并祝贺高分解决方案的参与者。
我的方法试图在保持交叉验证(CV)与排行榜(LB)关系一致的前提下,尽可能注入多样性。多样性可以通过特征和模型选择来实现,我在流程中选择了这两个要素。详情如下图所示:

如图所示,我选择确保以下几点:
KFold(10, random_state = 42, shuffle = True)depth = 8, learning_rate = 0.01 的单 XGBoost 模型表现最佳。当我追加 1 个训练数据 + 6-8 个原始数据集时,该模型获得了最佳的 CV 分数。这里并没有产生显著的收益。我选择了以下方法,成功率各不相同:
我将重点介绍我的一些模型 Across 的 CV 分数范围,如下表所示:
| 模型类型/算法 | CV 分数 | 是否选中融合 |
|---|---|---|
| 公开基准代码 (Starter public work) | 0.355 | 否 (N) |
| Catboost | 0.325 - 0.33 | 是 (Y) |
| LightGBM | 0.34 - 0.375 | 是 (Y) |
| LightGBM GOSS | 0.335 - 0.3725 | 是 (Y) |
| XGBoost | 0.34 - 0.3795 | 是 (Y) |
| Torch 神经网络 | 0.31 - 0.32 | 否 (N) |
| Autogluon - 直接应用 | 0.345 | 是 (Y) |
| Autogluon 堆叠模型 | 0.3810 - 0.3812 | 是 (Y) |
| Torch 神经网络模型 | 0.3790 - 0.3805 | 是 (Y) |
| Logistic 融合 | 0.3815 - 0.3818 | 否 (N) |
| CuML Hill Climber 融合 | 0.3820 - 0.3830 | 是 (Y) |
我使用了以下 GPU 套件进行模型训练:
| 模型类型/算法 | GPU |
|---|---|
| Catboost | A5000 |
| LightGBM | A5000 |
| LightGBM GOSS | A5000 |
| XGBoost | A6000 Ada |
| Torch 神经网络 | A5000 |
| Autogluon - 直接应用 | L4 - Google Colab |
| Autogluon 堆叠模型 | L4 - Google Colab |
| Torch 神经网络模型 | L4 - Google Colab |
| Logistic 融合 | 无 |
| CuML Hill Climber 融合 | 4090 本地 GPU |
祝愿大家在即将到来的竞赛中以及职业生涯中一切顺利!
快乐学习,致以最诚挚的问候!
致敬,
Ravi Ramakrishnan