返回列表

30th Place Write Up

360. 2019 Data Science Bowl | data-science-bowl-2019

开始: 2019-10-24 结束: 2020-01-22 学习效果预测 数据算法赛
第30名方案分享

第30名方案分享

作者:ONODERA (Grandmaster)
比赛排名:第30名

我想与大家分享我在这次比赛中学到的东西。

我们的方法(公开榜 622名 → 私有榜 30名)

  • 信任交叉验证(CV)和排行榜(LB)。
  • 使用大约 500 个特征的 LightGBM (LGB) 模型。
  • 根据对抗验证分数(约 0.65)剔除了一些特征。
  • 先通过回归进行训练,然后使用 Nelder-Mead(单纯形)算法进行优化。

迟交提交

在几次迟交提交后,我意识到对抗验证在这里是无用的,而“信任 CV”是最好的方法。
此外,如果我使用大约 2000 个特征,也许我就能获奖,拿到金牌,并让我的队友成为 Grandmaster(特级大师)。

Chart 1 Chart 2

如何获得金牌

  • 生成大约 30,000 个特征。
  • 使用与评估相同的条件进行验证。
  • 只信任 CV(在确认我们可以信任 LB 之后)。
    QWK Random Truncate
  • 使用大量特征,直到 CV 分数饱和。
  • 最终不要担心对抗验证。
同比赛其他方案