3rd Place: From Base to Stacking: A Multilevel Ensembling Solution

676. Playground Series - Season 5, Episode 10 | playground-series-s5e10

开始: 2025-10-01 结束: 2025-10-31 交通流量与路况数据算法赛

第三名：从基础到堆叠：一个多层集成解决方案

作者： steubk (MASTER)
发布时间： 2025-11-01
竞赛排名： 第 3 名

第三名：从基础到堆叠：一个多层集成解决方案

祝贺所有获奖者！

这是我第一次参加 Playground 竞赛，我真的非常享受论坛中的协作精神。
非常感谢每一位贡献者——讨论的质量和多样性以及分享的代码令人惊叹！

我的解决方案相当直接简单，加上一点运气，让我获得了第三名！

第一层：基础模型

我从五个基础模型开始，灵感来自几个优秀的公开 Notebook：

TabM：感谢 @masayakawamata 展示这个模型有多强大！
基于残差的 TabM（TabM over residuals）：归功于 @cdeotte（像往常一样！）教导/提醒我们这个伟大的技术！
XGBoost
LightGBM
使用 TabM 框架的 MLP

所有模型都使用基于目标的分层 7 折交叉验证（Stratified on target 7-Fold Cross-Validation）进行训练，并变化模型的随机种子。
有趣的是，测试 7 折对比 5 折以及分层对比非分层，在 OOF 分数上带来了小幅但一致的提升。

第二层：堆叠

在第二层，我训练了一个堆叠神经网络，使用基础模型的预测作为输入特征。

第三层：带有 YDF 的元模型

对于第三层，我训练了一个 YDF 模型，使用了两者：

前一个堆叠层的预测
原始基础特征

感谢 @mikhailnaumov 分享优秀的 YDF 基线，这对搭建这个帮助很大！

第四层：最终集成

最终提交是第二层堆叠模型和第三层 YDF 模型的 50/50 混合，CV: 0.05585 和 LB: 0.05564

最后调整

最后，我将我的提交与最佳公共 LB 提交进行了合并，最终获得了 0.05563 的 LB 分数。

同比赛其他方案

1st place - I think it was genetic programming

4th Place – Residual XGBoost + Meta NN + Hill Climb Opt

5th Place - One Hundred Folds!

7th Place - Ridge

8th Place Solution for S5E10: Predict Road Accident Risk