1st Place Solution

2024 年疯狂三月（March Madness）机器学习竞赛 – 第 1 名方案

作者：Jared Cross

发布日期：2024‑04‑15

比赛排名：第 1 名

私密排行榜得分：0.05313

投票：获得 35 个赞

背景

我是一名科学和统计教师，从事棒球球员预测模型以及棒球 R&D 领域的咨询工作。我所在的高中高级统计课堂上，学生们在学年早期使用决策树参与了 Titanic – Machine Learning from Disaster 竞赛，也有不少学生报名参加了本次比赛。我计划在接下来的几周让他们参加 Spaceship Titanic，并且他们还使用了很多 Kaggle 数据集进行个人项目。总之，我非常感谢 Kaggle 为我的课程所做的贡献。

解决方案

过去，我曾尝试使用 ELO 评分和混合效应模型来进行预测，但今年我保持了简洁。

我的提交始于 Nate Silver 为男子和女子球队提供的评分。随后，我采用了一种“赌博”策略，把南卡罗来纳州的女队（South Carolina）和康涅狄格大学（UConn）的男子队设为超级球队——在每次模拟中都能取得胜利。回想起来，这可能过于冒险，或许不该为了争取前 8 名而使用这种策略。

一个简单的公式把两支对阵球队的评分差转化为获胜概率（对女子锦标赛前两轮的前四号种子球队还加入了主场优势的加权）：

msilver_wpct = function(pwr1, pwr2){
    pred_pt_margin = (pwr1 - pwr2)
    tscore = pred_pt_margin / 11
    pnorm(tscore)
}

wsilver_wpct = function(pwr1, pwr2, home = 0){
    # home = 1 (主场), 0 (中立), -1 (客场)
    hfa = 2.73 * home
    tscore = (pwr1 - pwr2 + hfa) / 11.5
    pnorm(tscore)
}

随后对比赛进行 5000 次模拟，耗时不到一小时。我的想法是 5000 次模拟足以使我的平均Bracket 非常接近 Silver 评分所给出的预期概率。

结束语

我喜欢这种赛制，也很喜��我们提交（多个）普通预测（bracket）的想法。多年间赛制不断变化，这会促使我们编写新代码、制定新策略，非常有趣。我认为，正如 Jack Lichtenstein 所建议的，使用 MAE 评估分差的预测方式有潜力成为一种出色的赛制。期待阅读今年所有参赛方案！

2024 年疯狂三月（March Madness）机器学习竞赛 – 第 1 名方案

背景

解决方案

结束语

相关链接

同比赛其他方案