430. March Machine Learning Mania 2021 - NCAAM | ncaam-march-mania-2021
感谢 Kaggle 主办这场有趣的比赛。能够看到现场比赛的结果非常令人着迷。在这场比赛中,我凭借单人金牌 🥇 成为了 Kaggle 竞赛大师,在全球 15.9 万名 Kaggle 竞赛选手中排名第 75 位!
我已经在这个笔记本中公开了我的解决方案。
基本上,这是多个不同模型的集成,其特征深受一些优秀公开笔记本的启发。我的大部分精力都集中在建模部分。
所以,我的最终解决方案包含了 LGB、XGB、HistGradientBoostingClassifier、RandomForestClassifier 和 LogisticRegression 的集成。我也尝试过像 SVM 和 LinearRegression 这样的模型,但它们降低了交叉验证(CV)分数,所以我将它们从最终的集成中剔除了。
基本上,我的目标是尽可能减少模型的偏差。
集成权重由 CV 分数决定。
相比于其他替代方案,我更倾向于使用以 season 列为分组的 GroupKFold,因为它会将整个赛季放在一起处理,而不是随机打乱。
显然,我在 CV 和模型构建中只使用了截至 2015 年的数据,以避免任何泄漏。
2015 年至最新年份的数据得分将被视为测试集。因此,该分数的任何改进都极有可能转化为 2021 年的分数。
此外,我根据 LGB 特征重要性图表中的高重要性特征创建了一些“魔法”特征。这可能也有一定的效果。我建议查看笔记本以了解更多详情。
如果您有任何困惑或问题,请告诉我。很高兴为您解答!