返回列表

3rd Place: From Base to Stacking: A Multilevel Ensembling Solution

676. Playground Series - Season 5, Episode 10 | playground-series-s5e10

开始: 2025-10-01 结束: 2025-10-31 交通流量与路况 数据算法赛
第三名:从基础到堆叠:一个多层集成解决方案
作者: steubk (MASTER)
发布时间: 2025-11-01
竞赛排名: 第 3 名

第三名:从基础到堆叠:一个多层集成解决方案

祝贺所有获奖者!

这是我第一次参加 Playground 竞赛,我真的非常享受论坛中的协作精神。
非常感谢每一位贡献者——讨论的质量和多样性以及分享的代码令人惊叹!

我的解决方案相当直接简单,加上一点运气,让我获得了第三名!

第一层:基础模型

我从五个基础模型开始,灵感来自几个优秀的公开 Notebook:

所有模型都使用基于目标的分层 7 折交叉验证(Stratified on target 7-Fold Cross-Validation)进行训练,并变化模型的随机种子。
有趣的是,测试 7 折对比 5 折以及分层对比非分层,在 OOF 分数上带来了小幅但一致的提升。

第二层:堆叠

在第二层,我训练了一个堆叠神经网络,使用基础模型的预测作为输入特征。

第三层:带有 YDF 的元模型

对于第三层,我训练了一个 YDF 模型,使用了两者:

  • 前一个堆叠层的预测
  • 原始基础特征

感谢 @mikhailnaumov 分享 优秀的 YDF 基线,这对搭建这个帮助很大!

第四层:最终集成

最终提交是第二层堆叠模型和第三层 YDF 模型的 50/50 混合,CV: 0.05585 和 LB: 0.05564

最后调整

最后,我将我的提交与最佳公共 LB 提交进行了合并,最终获得了 0.05563 的 LB 分数。

同比赛其他方案