返回列表

9th place solution | NCAAM 2021

430. March Machine Learning Mania 2021 - NCAAM | ncaam-march-mania-2021

开始: 2021-02-25 结束: 2021-04-06 赛事预测 数据算法赛
第9名解决方案 | NCAAM 2021

第9名解决方案 | NCAAM 2021

作者:Prashant Kikani | 排名:第9名

感谢 Kaggle 主办这场有趣的比赛。能够看到现场比赛的结果非常令人着迷。在这场比赛中,我凭借单人金牌 🥇 成为了 Kaggle 竞赛大师,在全球 15.9 万名 Kaggle 竞赛选手中排名第 75 位!

我已经在这个笔记本中公开了我的解决方案。

基本上,这是多个不同模型的集成,其特征深受一些优秀公开笔记本的启发。我的大部分精力都集中在建模部分。

建模

所以,我的最终解决方案包含了 LGBXGBHistGradientBoostingClassifierRandomForestClassifierLogisticRegression 的集成。我也尝试过像 SVMLinearRegression 这样的模型,但它们降低了交叉验证(CV)分数,所以我将它们从最终的集成中剔除了。

基本上,我的目标是尽可能减少模型的偏差。
集成权重由 CV 分数决定。

交叉验证 (CV)

相比于其他替代方案,我更倾向于使用以 season 列为分组的 GroupKFold,因为它会将整个赛季放在一起处理,而不是随机打乱。

显然,我在 CV 和模型构建中只使用了截至 2015 年的数据,以避免任何泄漏。

2015 年至最新年份的数据得分将被视为测试集。因此,该分数的任何改进都极有可能转化为 2021 年的分数。

此外,我根据 LGB 特征重要性图表中的高重要性特征创建了一些“魔法”特征。这可能也有一定的效果。我建议查看笔记本以了解更多详情。

如果您有任何困惑或问题,请告诉我。很高兴为您解答!

同比赛其他方案