428. March Machine Learning Mania 2021 - NCAAW | ncaaw-march-mania-2021
恭喜 Bojan 果断赢得了这场比赛,也恭喜所有参与者!这场比赛对我来说是一段疯狂的旅程,并让我第一次获得了金牌。
我自己的解决方案包含一些相当新颖的组件,并且只有一个比赛覆盖。
为了计算 OPR 和 DPR,我们需要解以下方程:
球队1得分 - 球队2得分 = 球队1 OPR - 球队2 DPR
通过线性回归最小化均方误差(MSE)可以很容易地解决这个问题。然而,这种方法不能很好地捕捉球队得分能力的一致性,因此我改用 CVXPY 通过不同的期望损失来解决这个问题。然后,我们可以将不同期望值的 OPR 和 DPR 值作为模型的特征。我认为引入期望 OPR 和 DPR 是我的 NCAAW 模型明显优于 NCAAM 模型的原因。
此外,我计算了每支球队分差的期望值和平均值指标(虽然可能没必要,但我用凸优化器做了这个)。
我使用了 4 个不同的 LightGBM 模型的集成,将我的 OPR 和 DPR 特征转化为概率。由于我为数据集中的大多数列创建了这些特征的变体,因此我的最终模型只使用了一个子集,仅包含最强且通常与得分直接相关的特征。
我在第一轮中 4 个模型差异最大的比赛上进行了对冲。这恰好是 SF Austin 对阵 Georgia Tech 的比赛,所以我有一个提交全押 SF Austin,另一个提交全押 GT。
我使用了历史上所有的比赛数据(包括锦标赛内外的数据)来训练模型,但将不同年份的每支球队视为不同的实体。我还对近年和锦标赛比赛的数据赋予了比其他数据更高的权重。