9th place solution | NCAAM 2021 | 优胜方案

第9名解决方案 | NCAAM 2021

作者：Prashant Kikani | 排名：第9名

感谢 Kaggle 主办这场有趣的比赛。能够看到现场比赛的结果非常令人着迷。在这场比赛中，我凭借单人金牌 🥇 成为了 Kaggle 竞赛大师，在全球 15.9 万名 Kaggle 竞赛选手中排名第 75 位！

我已经在这个笔记本中公开了我的解决方案。

基本上，这是多个不同模型的集成，其特征深受一些优秀公开笔记本的启发。我的大部分精力都集中在建模部分。

建模

所以，我的最终解决方案包含了 LGB、XGB、HistGradientBoostingClassifier、RandomForestClassifier 和 LogisticRegression 的集成。我也尝试过像 SVM 和 LinearRegression 这样的模型，但它们降低了交叉验证（CV）分数，所以我将它们从最终的集成中剔除了。

基本上，我的目标是尽可能减少模型的偏差。
集成权重由 CV 分数决定。

交叉验证 (CV)

相比于其他替代方案，我更倾向于使用以 season 列为分组的 GroupKFold，因为它会将整个赛季放在一起处理，而不是随机打乱。

显然，我在 CV 和模型构建中只使用了截至 2015 年的数据，以避免任何泄漏。

2015 年至最新年份的数据得分将被视为测试集。因此，该分数的任何改进都极有可能转化为 2021 年的分数。

此外，我根据 LGB 特征重要性图表中的高重要性特征创建了一些“魔法”特征。这可能也有一定的效果。我建议查看笔记本以了解更多详情。

如果您有任何困惑或问题，请告诉我。很高兴为您解答！

9th place solution | NCAAM 2021

第9名解决方案 | NCAAM 2021

建模

交叉验证 (CV)

相关链接

同比赛其他方案