你好 Kaggle，

这是我第一次参加比赛，幸运地获得了第五名，尽管我非常怀疑这是否只是新手运气。此外，正如其他地方所讨论的，私有排行榜可能无法很好地反映交叉验证分数。一位 Kaggler 在这里发布的结果显示，尽管他的交叉验证分数高达0.841，但在私有排行榜上仅排在第182名；稍后我们也会看到，我的交叉验证分数并没有那么高。

推荐参考的帖子

以下帖子对我帮助很大，我从中学习了很多，特别是如何正确进行交叉验证、何时使用 train_test_split 与 KFold，以及信任交叉验证分数的重要性。我强烈推荐给所有希望为 Playground 系列挑战打下坚实基础的初学者。
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/401113
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/399412
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/401344
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/400837
https://www.kaggle.com/competitions/playground-series-s3e12/discussion/400152

我的策略

我提交的完整笔记本可以在这里找到。
本次比赛中，我的策略是选取几个基础模型，使用 Optuna 结合 RSKfold 进行微调，查看每个特征的重要性，并剔除不重要的特征。之后，我检查交叉验证分数，确保去除不重要特征后分数有所提升。我对随机森林、XGBoost 和逻辑回归都进行了这样的处理，并加入了 @ambrosm 的 KNN 模型。随后，我构建了一个软投票集成分类器，其交叉验证分数约为0.817（如果我没记错的话），这再次凸显了私有排行榜的局限性。需要注意的是，单独的随机森林模型的交叉验证分数略高，因此我同时提交了这两个模型的预测结果。
总的来说，正如你所见，我认为自己并不值得获得第五名，但这仍然是一种回报，对我也是一种激励。如果你对下一步如何改进有任何意见或建议，我将非常感激。

祝好

#5 | Beginner's luck

#5 | 新手运气

你好 Kaggle，

推荐参考的帖子

我的策略

同比赛其他方案