返回列表

6th place - 1 week rush

657. Playground Series - Season 5, Episode 6 | playground-series-s5e6

开始: 2025-06-01 结束: 2025-06-30 作物智能识别 数据算法赛
第 6 名 - 1 周冲刺
作者: paperxd (EXPERT)
发布日期: 2025 年 7 月 1 日
竞赛排名: 第 6 名

第 6 名 - 1 周冲刺

哇!我很惊讶自己竟然能够某种程度上实现逆袭。

我的简陋解决方案

早期我想大家都注意到 CatBoost 表现真的很差,所以我从未在我的集成中使用 CatBoost。我的集成只由 XGBoost(70% 的 OOF)和 LightGBM(30% 的 OOF)组成。我收集了 135 个我自己创建的 OOF 和预测,因为我学到的一件事是,单个来自公共 notebook 且未经仔细检查的坏 OOF 或预测可能会导致 leaderboard 分数非常差。我的最终模型架构是一个逻辑回归和所有 OOF 的 Hill Climbing 之间的简单平均。我所有的模型都是在本地 4070 super 上训练的,效果很好。

一些我可能私藏的秘密

  • 我早期发现将所有数据类型设置为类别型能提高分数
  • 添加原始数据也大幅提高了分数
  • XGBoost sampling_method = gradients 不知为何即使在高 subsample 下效果更好?
  • XGBoost refresh_leaf = 0 也略微提高了分数,可能是过拟合

糟糕的事情

  • CatBoost
  • 特征工程
  • 训练时间长,我想 95% 的模型都用了 0.05 的学习率 😅
  • 暑期学校开始了,所以我只有大约 1 周的时间 before I couldn't prioritize coding anymore
  • 逻辑回归在 CPU 上运行需要 3 小时
  • 添加额外的 OOF 预测,不知为何 Hill Climbing 分数变差了

暑假快乐

除非你也有暑期学校

附言

你怎么知道自己获奖了?

同比赛其他方案