第五名方案 - March Machine Learning Mania 2024

背景

大家好，我叫Stefan，是一名来自布鲁克林的18岁高中生。我有一些机器学习背景（我参加了一年的课程并在此后自行学习），但发现在本次比赛中我的ML经验几乎没有用到。

提交结果

我使用Ken Rom的AdjEM数据对男子球队进行初步预测，使用Massey的Power评分对女子球队进行预测。我进行计算时假设每场70个possessions，并假设正态分布以计算概率。

在我的成功提交中，我使用了9作为男子比赛的标准误差，12作为女子比赛的标准误差。

计算t分数以预测分布（将AdjEM换算为70个possessions）：
$$\frac{0.7 \times (AdjEM_1 - AdjEM_2)}{\sigma_{M}}$$

对于女子数据，我使用Massey评分，并采用与男子评分相同的逻辑（使用Pwr代替AdjEM，并考虑主场优势）：
$$\frac{0.7 \times (Pwr_1 - Pwr_2 + hfa)}{\sigma_{M}}$$

在我的成功提交中，我只模拟了50个Bracket，并未对任何预测进行手动修改。

有趣的是，提交更多Bracket反而会降低我的提交表现。我的假设是，因为在本次提交中只模拟了50个Bracket，预测误差恰好更准确地匹配了实际结果的误差——我模拟的Bracket结果似乎以与实际比赛相同的方式偏离预期结果。这是我备选提交的策略，我惊讶它居然效果这么好。

特别感谢KenPom和Massey提供的评分，@jaredcross提供的模拟代码，以及Kaggle举办如此精彩的比赛！

作者：Stefan Weigl‑Bosker
发布日期：2024‑04‑23

提交笔记本 查看完整的模型与实现代码 模拟代码（来自@JaredCross） R语言实现的Bracket模拟