返回列表

3rd Place - Diversity and Hill Climbing

651. Playground Series - Season 5, Episode 5 | playground-series-s5e5

开始: 2025-05-01 结束: 2025-05-31 大众健身 数据算法赛
第三名 - 多样性与爬山算法

第三名 - 多样性与爬山算法

作者: nice kazusan
发布日期: 2025-06-03

首先,我想向本次比赛的组织者和参与者表示衷心的感谢,这是一次宝贵的学习经历。
同时,祝贺 @cdeotte 连续两次获得第一名,祝贺 @mahoganybuttstrings 获得第二名。
我特别感谢 @cdeotte 每次为我们提供的有益信息。

大纲

步骤 1

在这次比赛中,我被 CV 与 LB 相关性不稳定的问题所困扰,因此忽略了对公共 LB 的考量。
最初考虑将原始比赛数据集作为训练数据的一部分。
然而,CV 的提升未能达到预期,所以我决定不采用它。
首先考虑的工作是结合 Catboost、LGBM、XGB、NN 和 AutoGluon 共 18 个模型(5 折交叉验证)的元模型。
对于这 18 个模型,我使用 AutoFeat 和 Optuna 创建了多个条件,以关注模型的多样性。
CV 得分为 0.05893。

步骤 2

特别是,我参考了 这个 Notebook 并对特征进行了额外的考虑。(感谢 @onurkoc83
最后,我使用爬山算法进行了集成。
除了上述元模型外,爬山算法此次选择了以下六个模型。
模型选择示意图
这将 CV 提高到了 0.05885。
凭借这个具有最佳 CV 的模型,我获得了第三名。

总结思考

这次我很幸运获得了第三名,但我仍然缺乏知识,将继续学习更多。
感谢你们的持续指导。

同比赛其他方案