第19名解决方案

Notebook： 链接

将原始数据仅作为训练集的一部分

这样做的目的是希望在CV分数中，原始数据不会影响CV的准确性。因此我将原始数据追加到训练集中。你可以在上面的代码中观察到模型函数。

模型函数图示

我尝试了10折交叉验证的优化，但5折交叉验证的表现优于10折，因此我选择了5折交叉验证。

这似乎是第19名和第2名之间唯一的不同 :P
第2名使用了20折交叉验证

如果你查看这两个notebook，你会发现我做了关于乘数（multiplier）的实验。我的实验表明，对于LGBM模型，4是最佳乘数；对于XGB模型，1是最佳乘数。

乘数代码

准确率与数据集追加次数关系图

这是我在本次比赛中首次引入阈值优化的notebook，之后很多人开始实现它。我公开这个notebook的目的是学习如何改进实现方式。如果知道没有阈值优化时模型的影响，我将非常感激。欢迎分享。

请求为这个notebook点赞 ^

主解决方案Notebook 第19名解决方案，91.076 OOF策略 阈值优化Notebook 轻松实现92.196单模型