返回列表

#5 | Beginner's luck

544. Playground Series - Season 3, Episode 12 | playground-series-s3e12

开始: 2023-04-04 结束: 2023-04-17 临床决策支持 数据算法赛
#5 | 新手运气

#5 | 新手运气

作者:Tanoi | 发布日期:2023-04-18

你好 Kaggle,

这是我第一次参加比赛,幸运地获得了第五名,尽管我非常怀疑这是否只是新手运气。此外,正如其他地方所讨论的,私有排行榜可能无法很好地反映交叉验证分数。一位 Kaggler 在这里发布的结果显示,尽管他的交叉验证分数高达0.841,但在私有排行榜上仅排在第182名;稍后我们也会看到,我的交叉验证分数并没有那么高。

推荐参考的帖子

以下帖子对我帮助很大,我从中学习了很多,特别是如何正确进行交叉验证、何时使用 train_test_split 与 KFold,以及信任交叉验证分数的重要性。我强烈推荐给所有希望为 Playground 系列挑战打下坚实基础的初学者。
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/401113
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/399412
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/401344
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/400837
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/400152

我的策略

我提交的完整笔记本可以在这里找到。
本次比赛中,我的策略是选取几个基础模型,使用 Optuna 结合 RSKfold 进行微调,查看每个特征的重要性,并剔除不重要的特征。之后,我检查交叉验证分数,确保去除不重要特征后分数有所提升。我对随机森林、XGBoost 和逻辑回归都进行了这样的处理,并加入了 @ambrosmKNN 模型。随后,我构建了一个软投票集成分类器,其交叉验证分数约为0.817(如果我没记错的话),这再次凸显了私有排行榜的局限性。需要注意的是,单独的随机森林模型的交叉验证分数略高,因此我同时提交了这两个模型的预测结果。
总的来说,正如你所见,我认为自己并不值得获得第五名,但这仍然是一种回报,对我也是一种激励。如果你对下一步如何改进有任何意见或建议,我将非常感激。

祝好

同比赛其他方案