返回列表

4th Place Solution

480. March Machine Learning Mania 2022 - Womens | womens-march-mania-2022

开始: 2022-02-19 结束: 2022-04-04 赛事预测 数据算法赛
第四名方案

第四名方案

作者: Kevin Liu (wii365) | 排名: 第4名

首先,我要感谢 Kaggle 团队再次举办这项激动人心的比赛。祝贺大家,我们今年都积累了经验,这将使我们的模型在明年变得更好。这是我第三次参加 NCAA 比赛。2020 年令人大失所望,因为比赛在最后一刻因 COVID 被取消。今年,我很幸运地进入了前 1%。通往顶峰的旅程充满了兴奋。

我的模型是在 raddar 著名的 2018 年第一名方案基础上改进而来的。向 raddar 致敬!您的代码多年来启发了很多人的灵感。我的工作主要集中在以下几个方面:

  1. 特征工程

    为了让模型有更多机会从历史数据中提取信号,我的第一步是使用各种评估指标创建更多的组合特征。一些过去的优胜者反对这种方法,说简单的指标效果最好,而我认为他们可能没有找到那些真正有效的指标。我通过下面的链接从 NBAstuffer.com 找到了整整一页的球队评估指标。在混合了其中的大部分之后,我最终有 100 多个特征可供选择。
    https://www.nbastuffer.com/analytics-101/team-evaluation-metrics/

  2. 特征选择

    对我来说,特征选择总是一个枯燥但有回报的过程。剔除那些相关的特征很容易,但从剩下的特征中进行选择并不有趣。我首先使用 SHAP 来解释 XGBoost 模型的特征重要性,将特征数量减少到 50 个。然后通过反复试验,我又手动移除了 30 个,直到看到 CV loss 降到最低点。

  3. 比赛结果覆盖

    如果得知获胜者覆盖了很多比赛结果,大家不应该感到惊讶。覆盖第一轮的比赛已经成为每个想留在游戏中的人的必修课。今年,14 号种子杰克逊州立大学差点爆冷击败 3 号种子 LSU。他们在第四节领先 10 分,但没能坚持住。如果那真的发生了,很多人就会在排行榜上消失了。另一场比赛是 2 号种子贝勒大学对阵 10 号种子南达科他大学。我只在其中一次提交中覆盖了这场比赛,因为在过去 11 年中,2 号和 10 号种子之间只发生过一次爆冷。但仅今年就有两次被记录在案,另一次是 10 号种子克雷顿大学击败了 2 号种子爱荷华大学。明年你对 2 号种子对阵 10 号种子这场比赛再怎么小心也不为过。我通过押注几场更多的比赛承担了更多风险。整整一周,我都在为 1 号种子北卡罗来纳州立大学对阵 5 号种子圣母大学的比赛感到焦虑,因为圣母大学上一场比赛得了 108 分可不是开玩笑的。Raina Perez 最后的抢断拯救了 NC 州立大学,也让我在甜蜜 16 强赛后登上了排行榜第一名。

  4. 决赛轮次

    从精英八强赛开始,我的模型就一直处于自动运行状态,没有进行覆盖。在最后几场比赛中,争夺前 5 名位置的战斗比我预期的要激烈。我羡慕那些在精英八强赛和最终四强赛中拥有疯狂 0 损失的其他人,而我的模型仅在康涅狄格大学身上就给了我相当大的损失。在决赛之前,我跌到了第 6 名。没有抱怨,因为那些强队之间的投注对我来说风险太大了。我最终回到了第 4 名,因为一些全押的投注伤害了两个不幸的朋友。

再次祝贺大家。对于那些碰巧错过了更好的奖牌或奖金的人,不要失望。你们和下一个级别一样优秀,只是今年运气差了一点。祝我们在 2023 年好运!

如果您觉得这篇帖子有帮助,请点赞。谢谢。

同比赛其他方案