返回列表

19th Place Solution

597. Playground Series - Season 4, Episode 2 | playground-series-s4e2

开始: 2024-02-01 结束: 2024-02-29 临床决策支持 数据算法赛
第19名解决方案
作者: Sam
排名: 第19名
发布时间: 2024-03-06

第19名解决方案

Notebook: 链接

将原始数据仅作为训练集的一部分

这样做的目的是希望在CV分数中,原始数据不会影响CV的准确性。因此我将原始数据追加到训练集中。你可以在上面的代码中观察到模型函数。

模型函数图示

选择Folds数量

我尝试了10折交叉验证的优化,但5折交叉验证的表现优于10折,因此我选择了5折交叉验证。

这似乎是第19名和第2名之间唯一的不同 :P
第2名使用了20折交叉验证

选择原始数据追加到训练中的次数

如果你查看这两个notebook,你会发现我做了关于乘数(multiplier)的实验。我的实验表明,对于LGBM模型,4是最佳乘数;对于XGB模型,1是最佳乘数。

乘数代码

准确率与数据集追加次数关系图

阈值优化

这是我在本次比赛中首次引入阈值优化的notebook,之后很多人开始实现它。我公开这个notebook的目的是学习如何改进实现方式。如果知道没有阈值优化时模型的影响,我将非常感激。欢迎分享。

请求为这个notebook点赞 ^

同比赛其他方案