返回列表

Public #3, Private #40 - No ensemble small enough

651. Playground Series - Season 5, Episode 5 | playground-series-s5e5

开始: 2025-05-01 结束: 2025-05-31 大众健身 数据算法赛
公开榜第 3,私有榜第 40 - 没有足够小的集成模型

公开榜第 3,私有榜第 40 - 没有足够小的集成模型

作者: Optimistix
发布时间: 2025-06-01
竞赛排名: 40

本月 CV(交叉验证)与 LB(排行榜)的对应关系相当奇怪——我不记得曾经有过这么多 CV 改进但 LB 变差的例子。在某段时间里,我开始根据公开 LB 修剪我的集成模型,只保留那些能同时改进 CV 和 LB 的添加项——在许多以前的比赛中,我通常会保留那些改进 CV 且不会恶化 LB 的 OOF(OutOf-Fold 预测),但本月我经常丢弃它们。实际上,我是在过拟合公开 LB。我也最终得到了比平时小得多的集成模型,尽管我也有大的模型,最多达到 122 个 OOF。

最后,我选择了最好的公开 LB 作为其中一个提交(26 个 OOF,CV: 0.05878, LB: 0.05631, 私有:0.05853),最好的 CV 作为另一个提交(122 个 OOF,CV: 0.05855, LB: 0.05670, 私有:0.05855)。有趣的是,最大的 OOF 集合的 CV 等于私有 LB,所以真的没什么可抱怨的。另一方面,我有几个其他提交具有更好的分数,本可以让我排在第 7-16 名之间(私有分数:0.05847-0.05849)。这些大多来自仅允许正权重的 Hill Climbing(爬山法),通常选择 5-10 个 OOF。在过去的一些比赛中,当我担心 Hill Climbing 过拟合时,我选择了仅允许正权重的解决方案,而不是允许负权重的解决方案(后者倾向于选择所有或几乎所有 OOF)。鉴于有充分理由认为本月少数强模型优于大型集成,我本应该回过头来优先使用不带负权重的 Hill Climbing——但嘿,事后诸葛亮总是容易的。从第 3 名降到第 40 名是一个相当大的跌幅,但我至少有过两次更糟糕的经历。

同比赛其他方案