返回列表

2nd place - Yet another ensemble

664. Playground Series - Season 5, Episode 8 | playground-series-s5e8

开始: 2025-08-01 结束: 2025-08-31 信贷风控 数据算法赛
第二名 - 又一个集成模型

第二名 - 又一个集成模型

作者: Mahog | 发布时间: 2025-09-01 | 竞赛排名: 2

摘要: 我在这次比赛中的方法基本上与 S5E6 相同:生成大量多样化的 OOF 预测(理想情况下使用不同的模型,而不是相同的模型配合不同的超参数/特征工程),然后慢慢将它们添加到集成模型中。

首先,我要感谢分享代码和见解的人们,包括但不限于:@cdeotte, @omidbaghchehsaraei, @yekenot, @itasps, @siukeitin@tilii7

现在来看看我的解决方案:

模型

我的最终提交是一个由 59 个模型组成的集成,使用 Catboost 进行集成,分数(最佳模型)如下(注意:并非所有模型都使用了最佳特征集进行完全优化/运行,因此分数可能还有很大提升空间):

模型类型 CV 公共 LB 私有 LB
TabM 0.976810 0.97765 0.97750
XGBoost 0.976543 0.97741 0.97707
LightGBM 0.976013 0.97693 0.97660
RealMLP 0.975983 无数据 无数据
Catboost 0.975066 0.97590 0.97571
DeepTables 0.974459 0.97579 0.97559
TabR 0.973597 0.97580 0.97518
Gandalf 0.973107 0.97438 0.97410
Random Forest 0.972771 无数据 无数据
GRN 0.972365 0.97418 0.97380
FTTransformer 0.972252 0.97439 0.97398
CNN 0.970265 0.97447 0.97386
Bartz 0.968910 0.97250 0.97205

特征工程

我最好的特征集包含以下内容:

  • 二元组的 TE 均值和 CE(竞赛目标和原始目标)
  • 二元组的乘积(针对数值特征)
  • 来自 @yekenot 的周期性特征

模型集成

我测试了几种集成器(即 Ridge, LightGBM, Catboost 和 HC),Catboost 在私有榜单上表现最好。它们的分数如下:

集成器 CV 公共 LB 私有 LB
Ridge 0.977207 0.97804 0.97786
LightGBM 0.977408 0.97816 0.97796
Catboost 0.977432 0.97817 0.97796
HC 0.97740 0.97807 0.97789

在阅读了几篇解决方案文章后,似乎使用 Autogluon 进行集成可能会带来提升。

结论

在过去的 3 个赛季中(我们显然排除了 S5E7 :V),我可以说进入前三名的公式是一个大型、多样化的集成模型,也许再加上一两个技巧。感谢所有帮助我走到这一步的人,祝大家 Kaggle 愉快 :D!

同比赛其他方案