480. March Machine Learning Mania 2022 - Womens | womens-march-mania-2022
首先,我要感谢 Kaggle 管理员举办今年的比赛。这是我第二次参加 Kaggle 举办的 NCAA 篮球比赛。和去年的比赛一样,每天观看比赛并检查我的模型如何运作非常有趣。感谢 Kaggle 管理员组织这次比赛。
在这个仓库/论坛中,我想分享我对今年比赛的处理方法。然而,这类比赛受运气影响很大,所以我的方法明年大概率不会奏效。但是,我希望你们中的一些人能觉得我的方法有用。
基本上,我提交了两种类型的模型。一种是“被动”模型,另一种是“激进/博彩”模型。简而言之,我的激进/博彩模型最终成为了整个比赛中最准确的模型(最终排行榜得分为 0.35438)。虽然我的被动模型不如另一个有效,但仍然带来了比我预期更好的结果。(实际上最终排行榜得分为 0.43574,获得了铜牌。)
在“被动”模型中,我提交了仅使用 LightGBM 计算而没有任何后处理的预测结果。在“激进/博彩”模型中,我覆盖了三支球队的预测。
我在 我的 GitHub 仓库 中分享了我的 R 脚本和 Python 笔记本。如果有任何问题,请告诉我。
我编写了 R 脚本来建立数据集。
我没有做任何复杂的处理,只是设置了非常基础的特征,如种子信息、球队ID(teamid)、球队信息……
欲了解更多完整信息,请阅读此仓库中“R”文件夹下的 R 代码。
为了提高交叉验证分数,我做了一些非常基础的分类特征工程,例如计数编码、标签编码、目标编码……
请查看 此代码 以了解具体操作。
我只使用了一个模型,LightGBM。就是这样。最后我甚至没有堆叠任何其他模型。
我试图让它尽可能简单。所以我决定只使用 LightGBM。
更多信息请查看 此笔记本。
这就到了激进/博彩的部分。基本上,我覆盖了 3 支球队的预测,就像本次比赛中的其他参与者所做的一样。
我读了一些文章,选择了三支球队:“斯坦福”、“康涅狄格大学”、“南卡罗来纳”。
最终,这三支球队都进入了最终四强(FINAL FOUR)。我想我只是今年的幸运儿。