601. March Machine Learning Mania 2024 | march-machine-learning-mania-2024
我是一名科学和统计教师,从事棒球球员预测模型以及棒球 R&D 领域的咨询工作。我所在的高中高级统计课堂上,学生们在学年早期使用决策树参与了 Titanic – Machine Learning from Disaster 竞赛,也有不少学生报名参加了本次比赛。我计划在接下来的几周让他们参加 Spaceship Titanic,并且他们还使用了很多 Kaggle 数据集进行个人项目。总之,我非常感谢 Kaggle 为我的课程所做的贡献。
过去,我曾尝试使用 ELO 评分 和 混合效应模型 来进行预测,但今年我保持了简洁。
我的提交始于 Nate Silver 为男子和女子球队提供的评分。随后,我采用了一种“赌博”策略,把南卡罗来纳州的女队(South Carolina)和康涅狄格大学(UConn)的男子队设为超级球队——在每次模拟中都能取得胜利。回想起来,这可能过于冒险,或许不该为了争取前 8 名而使用这种策略。
一个简单的公式把两支对阵球队的评分差转化为获胜概率(对女子锦标赛前两轮的前四号种子球队还加入了主场优势的加权):
msilver_wpct = function(pwr1, pwr2){
pred_pt_margin = (pwr1 - pwr2)
tscore = pred_pt_margin / 11
pnorm(tscore)
}
wsilver_wpct = function(pwr1, pwr2, home = 0){
# home = 1 (主场), 0 (中立), -1 (客场)
hfa = 2.73 * home
tscore = (pwr1 - pwr2 + hfa) / 11.5
pnorm(tscore)
}
随后对比赛进行 5000 次模拟,耗时不到一小时。我的想法是 5000 次模拟足以使我的平均Bracket 非常接近 Silver 评分所给出的预期概率。
我喜欢这种赛制,也很喜��我们提交(多个)普通预测(bracket)的想法。多年间赛制不断变化,这会促使我们编写新代码、制定新策略,非常有趣。我认为,正如 Jack Lichtenstein 所建议的,使用 MAE 评估分差的预测方式有潜力成为一种出色的赛制。期待阅读今年所有参赛方案!