601. March Machine Learning Mania 2024 | march-machine-learning-mania-2024
UConn 在疯狂三月依旧闪耀!!!
首先向所有参赛者表示祝贺,并感谢 Kaggle 组织委员会多年举办如此精彩的比赛!
我现在是康涅狄格大学(UConn)商学院的四年级运营管理博士研究生。在攻读博士之前,我获得了蒙特利尔理工学院的数学理学硕士学位,以及魁北克大学蒙特利尔分校的精算学理学学士学位。
我的研究生研究主要集中在体育博彩领域的机器学习和优化。具体来说,我多年来一直致力于在三月疯狂比赛中选择多个参赛组合。我与合作者开发了多种启发式算法,并在2023年由 DraftKings 组织的三月疯狂比赛中测试了我们最佳的启发式算法。我们的启发式算法旨在找到最佳的参赛组合,以最大化得分最高参赛组合的期望得分。随后我们证明该启发式算法优于世界上一些最优秀的体育博彩者,并且有 2.2% 的机会赢得 100 万美元。该论文正在修改中(将在 arXiv 上发布)。
虽然我从事三月疯狂相关工作多年,但我的重点并未放在预测方面。然而,我的专业背景使我能够测试和探索不同的预测模型。
我的实现使用 Python。多年来的分析表明,Nate Silver 的评分通常足够稳健,并能很好地洞察三月疯狂锦标赛的结果。这些评分主要缺少的是对场地的微小调整。由于时间限制,我使用 Nate Silver 的预测进行参赛,并做了以下微小调整:
在理想情况下,我本应也对女子锦标赛中哪些球队坐拥主场进行更深入的分析,包括每队的伤病名单。场地位置的影响众所周知(尤其在大学体育),而伤病也是三月疯狂的重要因素,因为每支球队的板凳深度有限,这凸显了在生成预测前考虑伤病的必要性。回顾我的提交,我很幸运,因为我本打算因阵容受限而大幅降低 UConn 女子球队的评分。
使用男子和女子的评分,我使用经典的 Nate Silver 评分生成了 64×64 的矩阵。给定球队 A 与球队 B 的对抗以及各自的评分 rA 与 rB,球队 A 获胜的概率为 P_{A,B}=max(1/(1+10**(-30.464*(rA-rB)/400))+homecourtAdvantage,1),其中如果只有球队 A 或球队 B 主场作战,则主场优势为 +5% 的概率。虽然这些改动相当简单,但足以让我获得第 6 名!
鉴于该指标的二元特性,我认为在预测本身中考虑不确定性非常重要。我当时正在准备第二份提交,但由于时间不足未能完成(GitHub:githublink)。之前测试的模型包括基于种子的逻辑回归模型、使用 R 包 cbbdata 的预测函数,以及利用比赛地点、进攻评分、防守评分以及球队在整个赛季和滚动窗口统计数据构建的提升模型。
虽然我从事这方面工作多年,但这是我第一次提交预测。与前几年相比,今年的流程似乎有很大改进。
我可能言之过早,但该指标可能仍会惩罚因大爆冷而受影响的高水平选手。借鉴每日梦幻体育(DFS)的思路,允许参赛者提交多于两个提交(例如 5 个)会很有趣。由于三月疯狂本身结果的高方差,我认为每个参数估计的随机性很大,两个提交可能不足以在预测中对此进行建模。许多参赛者的策略似乎是手动修正第二份提交中的某些比赛结果来调整预测矩阵,但允许参赛者拥有更多预测矩阵可能会帮助更优秀的参赛者超越那些手动修正结果或使用像我这样简单方法的参赛者。
输入:
输出:
代码运行约需 1 分钟即可完成全部编译。我的代码可在我的 Kaggle 上获取。
明年再见!
Jeff