430. March Machine Learning Mania 2021 - NCAAM | ncaam-march-mania-2021
这一年真不容易!
这是我第二次参加这项比赛,但已经是第三次构建模型了。我对结果感到满意,因为由于提交当天的愚蠢失误,结果完全来自模型本身,没有任何人工覆盖。我们可以称之为第一次“快乐的意外”,因为过度自信的预测本会彻底毁掉我的分数。
该模型是我对经典的 @raddar 模型的改进版,加上了一个逻辑回归模型,你可以在 GitHub 仓库 中找到所有相关内容。
这两个模型都是在(不同的)特征集上训练的,这些特征完全来自提供的数据(这是因为我比较懒,没有使用其他人使用的进阶统计数据或投注概率)。你可以在 这个 Notebook 中找到所有特征。
特征的选择由两个同等重要的因素驱动:
XGBoost 模型还为分差竞猜比赛生成了预测,我很高兴看到它在那里获得了第 6 名。
尽管是在不同的特征上训练并依赖于非常不同的方法,这两个模型在 94% 的情况下是一致的。然后,我通过增强那些两个模型都相当自信的比赛结果的置信度,来结合这两个模型的预测。我信任 XGBoost,因为它在过去每届比赛中都一直保持前 50 名,多亏了我过去几年所做的工作,我可以很快验证这一点,我在 另一个 Notebook 中简要展示了这一点。
像许多其他人一样,它未能预测到重大的爆冷。ORU(奥罗尔罗伯茨大学)的晋级对我来说并不是特别令人担忧,因为该事件似乎足够罕见,但我需要好好研究一下为什么我的模型那么不喜欢俄勒冈州立大学。
展望未来,我觉得我在太多的比赛中使用了相同的建模方法,今年我在选择特征上稍微聪明了一点,但我感觉从中已经学不到更多东西了。因此,我希望明年能再次参加这项比赛,通过尝试完全不同的东西来承担更多风险。核心假设——即赛季表现确实可以预测单场比赛的结果——虽然合理,但并没有比有根据的猜测带来更好的预测,想到我们可以做得比那更好,这很不错。
我很好奇顶尖团队在这些比赛中做了什么来获得更好的预测,我借此机会祝贺所有的金牌得主。看着排行榜随着所有的爆冷每天变化很有趣,虽然我们都受益于一些运气,但我期待看到导致这些结果的精彩方法并向它们学习。
附言:这也是我有史以来的第一枚奖牌,感觉很不错,我不撒谎。