返回列表

1st Place Solution

601. March Machine Learning Mania 2024 | march-machine-learning-mania-2024

开始: 2024-02-27 结束: 2024-04-09 赛事预测 数据算法赛
2024 年疯狂三月(March Madness)机器学习竞赛 – 第 1 名方案

2024 年疯狂三月(March Madness)机器学习竞赛 – 第 1 名方案

作者:Jared Cross

发布日期:2024‑04‑15

比赛排名:第 1 名

私密排行榜得分:0.05313

投票:获得 35 个赞

背景

我是一名科学和统计教师,从事棒球球员预测模型以及棒球 R&D 领域的咨询工作。我所在的高中高级统计课堂上,学生们在学年早期使用决策树参与了 Titanic – Machine Learning from Disaster 竞赛,也有不少学生报名参加了本次比赛。我计划在接下来的几周让他们参加 Spaceship Titanic,并且他们还使用了很多 Kaggle 数据集进行个人项目。总之,我非常感谢 Kaggle 为我的课程所做的贡献。

解决方案

过去,我曾尝试使用 ELO 评分混合效应模型 来进行预测,但今年我保持了简洁。

我的提交始于 Nate Silver 为男子和女子球队提供的评分。随后,我采用了一种“赌博”策略,把南卡罗来纳州的女队(South Carolina)和康涅狄格大学(UConn)的男子队设为超级球队——在每次模拟中都能取得胜利。回想起来,这可能过于冒险,或许不该为了争取前 8 名而使用这种策略。

一个简单的公式把两支对阵球队的评分差转化为获胜概率(对女子锦标赛前两轮的前四号种子球队还加入了主场优势的加权):

msilver_wpct = function(pwr1, pwr2){
    pred_pt_margin = (pwr1 - pwr2)
    tscore = pred_pt_margin / 11
    pnorm(tscore)
}

wsilver_wpct = function(pwr1, pwr2, home = 0){
    # home = 1 (主场), 0 (中立), -1 (客场)
    hfa = 2.73 * home
    tscore = (pwr1 - pwr2 + hfa) / 11.5
    pnorm(tscore)
}

随后对比赛进行 5000 次模拟,耗时不到一小时。我的想法是 5000 次模拟足以使我的平均Bracket 非常接近 Silver 评分所给出的预期概率。

结束语

我喜欢这种赛制,也很喜��我们提交(多个)普通预测(bracket)的想法。多年间赛制不断变化,这会促使我们编写新代码、制定新策略,非常有趣。我认为,正如 Jack Lichtenstein 所建议的,使用 MAE 评估分差的预测方式有潜力成为一种出色的赛制。期待阅读今年所有参赛方案!

同比赛其他方案