返回列表

5th Place Solution Outline

428. March Machine Learning Mania 2021 - NCAAW | ncaaw-march-mania-2021

开始: 2021-02-25 结束: 2021-04-05 赛事预测 数据算法赛
第5名解决方案概述

第5名解决方案概述

作者:Thomas Hoffmann
发布时间:2021-04-10

恭喜 Bojan 果断赢得了这场比赛,也恭喜所有参与者!这场比赛对我来说是一段疯狂的旅程,并让我第一次获得了金牌。

我自己的解决方案包含一些相当新颖的组件,并且只有一个比赛覆盖。

进攻和防守实力评级 (OPR 和 DPR)

为了计算 OPR 和 DPR,我们需要解以下方程:
球队1得分 - 球队2得分 = 球队1 OPR - 球队2 DPR

通过线性回归最小化均方误差(MSE)可以很容易地解决这个问题。然而,这种方法不能很好地捕捉球队得分能力的一致性,因此我改用 CVXPY 通过不同的期望损失来解决这个问题。然后,我们可以将不同期望值的 OPR 和 DPR 值作为模型的特征。我认为引入期望 OPR 和 DPR 是我的 NCAAW 模型明显优于 NCAAM 模型的原因。

此外,我计算了每支球队分差的期望值和平均值指标(虽然可能没必要,但我用凸优化器做了这个)。

模型

我使用了 4 个不同的 LightGBM 模型的集成,将我的 OPR 和 DPR 特征转化为概率。由于我为数据集中的大多数列创建了这些特征的变体,因此我的最终模型只使用了一个子集,仅包含最强且通常与得分直接相关的特征。

覆盖

我在第一轮中 4 个模型差异最大的比赛上进行了对冲。这恰好是 SF Austin 对阵 Georgia Tech 的比赛,所以我有一个提交全押 SF Austin,另一个提交全押 GT。

其他说明

我使用了历史上所有的比赛数据(包括锦标赛内外的数据)来训练模型,但将不同年份的每支球队视为不同的实体。我还对近年和锦标赛比赛的数据赋予了比其他数据更高的权重。

同比赛其他方案