544. Playground Series - Season 3, Episode 12 | playground-series-s3e12
这是我第一次参加比赛,幸运地获得了第五名,尽管我非常怀疑这是否只是新手运气。此外,正如其他地方所讨论的,私有排行榜可能无法很好地反映交叉验证分数。一位 Kaggler 在这里发布的结果显示,尽管他的交叉验证分数高达0.841,但在私有排行榜上仅排在第182名;稍后我们也会看到,我的交叉验证分数并没有那么高。
以下帖子对我帮助很大,我从中学习了很多,特别是如何正确进行交叉验证、何时使用 train_test_split 与 KFold,以及信任交叉验证分数的重要性。我强烈推荐给所有希望为 Playground 系列挑战打下坚实基础的初学者。
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/401113
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/399412
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/401344
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/400837
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/400152
我提交的完整笔记本可以在这里找到。
本次比赛中,我的策略是选取几个基础模型,使用 Optuna 结合 RSKfold 进行微调,查看每个特征的重要性,并剔除不重要的特征。之后,我检查交叉验证分数,确保去除不重要特征后分数有所提升。我对随机森林、XGBoost 和逻辑回归都进行了这样的处理,并加入了 @ambrosm 的 KNN 模型。随后,我构建了一个软投票集成分类器,其交叉验证分数约为0.817(如果我没记错的话),这再次凸显了私有排行榜的局限性。需要注意的是,单独的随机森林模型的交叉验证分数略高,因此我同时提交了这两个模型的预测结果。
总的来说,正如你所见,我认为自己并不值得获得第五名,但这仍然是一种回报,对我也是一种激励。如果你对下一步如何改进有任何意见或建议,我将非常感激。
祝好