1st place solution/approach

第一名解决方案/方法

作者： Koki Ando
发布时间： 2022-04-09

首先，我要感谢 Kaggle 管理员举办今年的比赛。这是我第二次参加 Kaggle 举办的 NCAA 篮球比赛。和去年的比赛一样，每天观看比赛并检查我的模型如何运作非常有趣。感谢 Kaggle 管理员组织这次比赛。

在这个仓库/论坛中，我想分享我对今年比赛的处理方法。然而，这类比赛受运气影响很大，所以我的方法明年大概率不会奏效。但是，我希望你们中的一些人能觉得我的方法有用。

基本上，我提交了两种类型的模型。一种是“被动”模型，另一种是“激进/博彩”模型。简而言之，我的激进/博彩模型最终成为了整个比赛中最准确的模型（最终排行榜得分为 0.35438）。虽然我的被动模型不如另一个有效，但仍然带来了比我预期更好的结果。（实际上最终排行榜得分为 0.43574，获得了铜牌。）

在“被动”模型中，我提交了仅使用 LightGBM 计算而没有任何后处理的预测结果。在“激进/博彩”模型中，我覆盖了三支球队的预测。

我在我的 GitHub 仓库中分享了我的 R 脚本和 Python 笔记本。如果有任何问题，请告诉我。

数据准备

我编写了 R 脚本来建立数据集。
我没有做任何复杂的处理，只是设置了非常基础的特征，如种子信息、球队ID（teamid）、球队信息……
欲了解更多完整信息，请阅读此仓库中“R”文件夹下的 R 代码。

为了提高交叉验证分数，我做了一些非常基础的分类特征工程，例如计数编码、标签编码、目标编码……
请查看此代码以了解具体操作。

我只使用了一个模型，LightGBM。就是这样。最后我甚至没有堆叠任何其他模型。
我试图让它尽可能简单。所以我决定只使用 LightGBM。
更多信息请查看此笔记本。

这就到了激进/博彩的部分。基本上，我覆盖了 3 支球队的预测，就像本次比赛中的其他参与者所做的一样。
我读了一些文章，选择了三支球队：“斯坦福”、“康涅狄格大学”、“南卡罗来纳”。

最终，这三支球队都进入了最终四强（FINAL FOUR）。我想我只是今年的幸运儿。