返回列表

7th place solution - lots of trial-and-error

455. Tabular Playground Series - Sep 2021 | tabular-playground-series-sep-2021

开始: 2021-09-01 结束: 2021-09-30 保险科技 数据算法赛
第7名解决方案 - 大量的试错

第7名解决方案 - 大量的试错

作者:Steven Ferrer | 比赛排名:第7名

大家好,我想感谢所有在这次比赛中分享专业知识的人。如果没有你们出色的工作,我不可能做到这一点!

起初,我的模型只产生了平庸的结果(0.5xx - 0.79x),因为我使用的是 SimpleImputer,没有捕捉到 NaN 值的效用。在了解到 NaN 值实际上是有用的,并在插补之前将其捕捉到之后,即使只使用基础模型,结果也变得更好了。

  1. 特征工程

  2. LightGBM

    参考这篇 notebook

    • 我忘了使用的是谁的超参数,如果你知道是谁,请在评论中告诉我,以便我在此处正确提及。
    • 很可能是使用了 @mlanhenke 的超参数。
  3. CatBoost

    参考这篇 notebook

  4. HistGradientBoost

    参考这篇 notebook

  5. XGBoost

    参考这篇 notebook

    • 也忘了使用的是谁的超参数,如果你知道,请在评论中告诉我,以便我在此处正确提及。
    • 很可能是使用了 @mlanhenke 的超参数。
  6. VotingClassifier (LightGBM/CatBoost/HistGradientBoost)

    参考这篇 notebook

    • 我使用了与上述相同的超参数,只是将它们组合到了投票分类器中。
    • 我在投票中没有包含 XGBoost 的原因是它训练时间很长(9小时还没跑完),而且我的 GPU 不够用了。事实证明这是件好事,因为我只在使用 CPU 的投票中取得了好成绩。
同比赛其他方案