返回列表

9th Place Solution

543. March Machine Learning Mania 2023 | march-machine-learning-mania-2023

开始: 2023-02-15 结束: 2023-04-04 赛事预测 数据算法赛
第9名解决方案 - maze508
竞赛排名: 第9名
作者: maze508 (专家)
发布时间: 2023-05-14

又是一年一度的时刻了……

作为一名平时不太关注篮球的人,这大概是一年中我会变成篮球"粉丝"的时候。不过我得说,即使作为一名 casual 观众,我也深深被吸引住了,并且非常享受观看其中一些比赛,尤其是到赛季末的比赛。

模型

女子锦标赛

我在女子比赛方面的表现不太理想,Brier分数约为0.160,主要是因为我的模型相当简单,但我觉得即使我只输入了简单的特征,预测结果还是不够果断。

我使用了Theo的逻辑回归作为基准,并添加了一些自己的特征,即重要特征的聚合指标(最小值/最大值/平均值/中位数等……),比如分差/总得分等……然后进行了一些调优。不过我相信Theo的原始notebook在女子比赛预测方面表现要好得多。

没有花太多时间在女子模型上,因为根据以往的比赛经验,我相当确定女子比赛中不会出现太多冷门,我只是专注于构建一个使用最(逻辑上)"直接"特征的模型,完全没有深入研究对阵分析。

男子锦标赛

很可能是我在男子比赛中的表现将我推上了排行榜。我的总体Brier分数约为0.195,考虑到今年出现了这么多冷门,我对这个分数相当满意。同样地,根据以往疯狂三月比赛的经验,我认为男子比赛的方差可能更大。我决定构建一个XGB模型,使用以下特征:

  • 基于外部评级系统的排名(Sagarin、Pomeroy、Moore、538评级等……)
    • 整个赛季排名变化
  • 胜率及分差(客场/主场)
  • 球队技术统计(聚合指标)

另外,我还没提到,有很多关于Brier分数如何鼓励更多1/0翻转和覆盖性投注的讨论。作为一个风险厌恶型的人,这不是我会做的事情,但这让我开始思考预测分布的问题。

我在这里花了很多时间,试图避免重复去年比赛中的错误,当时我的预测过于保守。以下是我尝试过的一些更有趣的事情:

  • 不同形式的缩放后处理(没有效果)
  • 基于多种特征添加"风险偏好"特征(即历史交锋结果、种子排名差异等……)来管理预测分布
  • 与简单逻辑回归模型集成

令人惊讶的是,最后一个方法效果最好(明显优于其他方法),我得以得到一组我满意的预测结果,既不过于保守,当然也不过于极端。

交叉验证相关

虽然我认为交叉验证对所有机器学习问题都很重要,但在尝试调整预测分布时,我并没有太关注它。只要所有用作验证的赛季没有出现交叉验证分数下降,我就会添加/删除特征。我的最终集成模型实际上比单独的XGB模型具有更低的总体交叉验证分数。

同比赛其他方案