返回列表

3rd Place Solution

480. March Machine Learning Mania 2022 - Womens | womens-march-mania-2022

开始: 2022-02-19 结束: 2022-04-04 赛事预测 数据算法赛
第三名解决方案
作者:John Doe Jr. | 排名:第3名

第三名解决方案

感谢 Google、Kaggle 以及 Kaggle 管理员举办了这次比赛!

模型

我的模型以一个基线开始,该基线使用了从 FiveThirtyEight(538)的“疯狂三月”预测中推断出的获胜概率。然后,它生成了 1,200 种这些获胜概率的线性变换,这些变换偏向于微小的变化,以模拟模型围绕 538 基线概率聚集的情况。接着,它模拟了 25,000 场不同的锦标赛,并选择了在所有变换中最常进入前 5 名的那个变换。

对于概率 p,最佳的变换 f(p) 为:
equation

该变换放大了高于 0.93 的获胜概率;而在低于 0.93 时,它会折减概率,以至于在 0.36 到 0.64 之间变得与基线相反(逆向投注)。
graph

该模型在与基线持相反意见的比赛中取得了 10 胜 3 负的战绩,并且总体对数损失(log loss)改善了 0.036。
Screenshot2

代码

https://github.com/johndoe-jr/NCAA2022

备注

  • 538 的隐含概率是通过计算一支球队晋级某轮的概率(经其进入该轮的概率调整后)并将其与对手的相同计算结果进行比较而得出的。
  • 变换由纯平移变换、纯旋转变换以及两者组合的变换构成。偏斜是通过从最大变换开始并将其乘以一个小于 1 的因子来完成的,这样当变换接近基线时,相邻变换会不断靠拢。
  • 模拟使用默认的基线概率来计算每场锦标赛比赛的胜者。
  • 这是我多年来一直使用的模型,我还没有调整它以输出两个正交变换。两次提交都来自几乎相同的模型运行,并产生了相似的结果:0.39429 和 0.39662。相同的模型在男子锦标赛中得分为 0.74286。
同比赛其他方案