430. March Machine Learning Mania 2021 - NCAAM | ncaam-march-mania-2021
第一个模型是一个简单的 CatBoost 模型,使用了包括 Elo 评分差在内的几个特征。
关键在于使用每支球队在每场比赛时的 Elo 评分,而不是常规赛结束时的评分。
以 UCLA 对阵 Gonzaga 为例,我们可以从对阵表上看到他们的比赛将在最终四强中进行。这意味着 UCLA 和 Gonzaga 在比赛前必须已经赢得了四场锦标赛比赛。
当然,我们不知道 UCLA 实际上会击败哪支球队(第一轮除外),但我们可以通过运行模拟来很好地估计比赛时的 Elo 评分。
通过这种方式,爆冷获胜后的球队被模型认为有更大的获胜机会,因为他们的 Elo 评分会显着增加(而且显然这是事实)。
第二个模型是基于 Riiid 第一名解决方案 的单查询 Transformer,在常规赛比赛结果上进行了训练。
由于结果不是很好,我就不详细介绍了,但我附上了模型的代码,如果你感兴趣可以看一看。
包括过去锦标赛回测在内的结果如下。看来今年我只是运气好 ;)
| 年份 | CatBoost | Transformer |
|---|---|---|
| 2021 | 0.57154 (第15名) | 0.65211 (第482名) |
| 2019 | 0.4813 (第237名) | 0.5106 (第484名) |
| 2018 | 0.6110 (第449名) | 0.5881 (第165名) |
| 2017 | 0.4936 (第102名) | 0.4893 (第80名) |
| 2016 | 0.5403 (第42名) | 0.5553 (第116名) |