597. Playground Series - Season 4, Episode 2 | playground-series-s4e2
Notebook: 链接
这样做的目的是希望在CV分数中,原始数据不会影响CV的准确性。因此我将原始数据追加到训练集中。你可以在上面的代码中观察到模型函数。

我尝试了10折交叉验证的优化,但5折交叉验证的表现优于10折,因此我选择了5折交叉验证。
这似乎是第19名和第2名之间唯一的不同 :P
第2名使用了20折交叉验证
如果你查看这两个notebook,你会发现我做了关于乘数(multiplier)的实验。我的实验表明,对于LGBM模型,4是最佳乘数;对于XGB模型,1是最佳乘数。


这是我在本次比赛中首次引入阈值优化的notebook,之后很多人开始实现它。我公开这个notebook的目的是学习如何改进实现方式。如果知道没有阈值优化时模型的影响,我将非常感激。欢迎分享。
请求为这个notebook点赞 ^