664. Playground Series - Season 5, Episode 8 | playground-series-s5e8
摘要: 我在这次比赛中的方法基本上与 S5E6 相同:生成大量多样化的 OOF 预测(理想情况下使用不同的模型,而不是相同的模型配合不同的超参数/特征工程),然后慢慢将它们添加到集成模型中。
首先,我要感谢分享代码和见解的人们,包括但不限于:@cdeotte, @omidbaghchehsaraei, @yekenot, @itasps, @siukeitin 和 @tilii7。
现在来看看我的解决方案:
我的最终提交是一个由 59 个模型组成的集成,使用 Catboost 进行集成,分数(最佳模型)如下(注意:并非所有模型都使用了最佳特征集进行完全优化/运行,因此分数可能还有很大提升空间):
| 模型类型 | CV | 公共 LB | 私有 LB |
|---|---|---|---|
| TabM | 0.976810 | 0.97765 | 0.97750 |
| XGBoost | 0.976543 | 0.97741 | 0.97707 |
| LightGBM | 0.976013 | 0.97693 | 0.97660 |
| RealMLP | 0.975983 | 无数据 | 无数据 |
| Catboost | 0.975066 | 0.97590 | 0.97571 |
| DeepTables | 0.974459 | 0.97579 | 0.97559 |
| TabR | 0.973597 | 0.97580 | 0.97518 |
| Gandalf | 0.973107 | 0.97438 | 0.97410 |
| Random Forest | 0.972771 | 无数据 | 无数据 |
| GRN | 0.972365 | 0.97418 | 0.97380 |
| FTTransformer | 0.972252 | 0.97439 | 0.97398 |
| CNN | 0.970265 | 0.97447 | 0.97386 |
| Bartz | 0.968910 | 0.97250 | 0.97205 |
我最好的特征集包含以下内容:
我测试了几种集成器(即 Ridge, LightGBM, Catboost 和 HC),Catboost 在私有榜单上表现最好。它们的分数如下:
| 集成器 | CV | 公共 LB | 私有 LB |
|---|---|---|---|
| Ridge | 0.977207 | 0.97804 | 0.97786 |
| LightGBM | 0.977408 | 0.97816 | 0.97796 |
| Catboost | 0.977432 | 0.97817 | 0.97796 |
| HC | 0.97740 | 0.97807 | 0.97789 |
在阅读了几篇解决方案文章后,似乎使用 Autogluon 进行集成可能会带来提升。
在过去的 3 个赛季中(我们显然排除了 S5E7 :V),我可以说进入前三名的公式是一个大型、多样化的集成模型,也许再加上一两个技巧。感谢所有帮助我走到这一步的人,祝大家 Kaggle 愉快 :D!