7th place solution - lots of trial-and-error | 优胜方案

第7名解决方案 - 大量的试错

作者：Steven Ferrer | 比赛排名：第7名

大家好，我想感谢所有在这次比赛中分享专业知识的人。如果没有你们出色的工作，我不可能做到这一点！

起初，我的模型只产生了平庸的结果（0.5xx - 0.79x），因为我使用的是 SimpleImputer，没有捕捉到 NaN 值的效用。在了解到 NaN 值实际上是有用的，并在插补之前将其捕捉到之后，即使只使用基础模型，结果也变得更好了。

特征工程
- 感谢 @realtimshady 在这篇 notebook 中提供的特征工程思路。
- 感谢 @dwin183287 和 @lucamassaron 关于缺失值的 EDA 和 notebook。
- 感谢 @craigmthomas、@mohammadkashifunique、@davidcoxon 在讨论区回答我的问题。
LightGBM

参考这篇 notebook
- 我忘了使用的是谁的超参数，如果你知道是谁，请在评论中告诉我，以便我在此处正确提及。
- 很可能是使用了 @mlanhenke 的超参数。
CatBoost

参考这篇 notebook
- 我使用了 @mlanhenke 在这篇 notebook 中的超参数。
- 感谢 @shenurisumanasekara 提供的 catboost 分步 notebook。
HistGradientBoost

参考这篇 notebook
- 我使用了 @tunguz 在这篇 notebook 中的超参数。
XGBoost

参考这篇 notebook
- 也忘了使用的是谁的超参数，如果你知道，请在评论中告诉我，以便我在此处正确提及。
- 很可能是使用了 @mlanhenke 的超参数。
VotingClassifier (LightGBM/CatBoost/HistGradientBoost)

参考这篇 notebook
- 我使用了与上述相同的超参数，只是将它们组合到了投票分类器中。
- 我在投票中没有包含 XGBoost 的原因是它训练时间很长（9小时还没跑完），而且我的 GPU 不够用了。事实证明这是件好事，因为我只在使用 CPU 的投票中取得了好成绩。

7th place solution - lots of trial-and-error