5th Place Solution Outline

第5名解决方案概述

作者：Thomas Hoffmann
发布时间：2021-04-10

恭喜 Bojan 果断赢得了这场比赛，也恭喜所有参与者！这场比赛对我来说是一段疯狂的旅程，并让我第一次获得了金牌。

我自己的解决方案包含一些相当新颖的组件，并且只有一个比赛覆盖。

进攻和防守实力评级 (OPR 和 DPR)

为了计算 OPR 和 DPR，我们需要解以下方程：
球队1得分 - 球队2得分 = 球队1 OPR - 球队2 DPR

通过线性回归最小化均方误差（MSE）可以很容易地解决这个问题。然而，这种方法不能很好地捕捉球队得分能力的一致性，因此我改用 CVXPY 通过不同的期望损失来解决这个问题。然后，我们可以将不同期望值的 OPR 和 DPR 值作为模型的特征。我认为引入期望 OPR 和 DPR 是我的 NCAAW 模型明显优于 NCAAM 模型的原因。

此外，我计算了每支球队分差的期望值和平均值指标（虽然可能没必要，但我用凸优化器做了这个）。

模型

我使用了 4 个不同的 LightGBM 模型的集成，将我的 OPR 和 DPR 特征转化为概率。由于我为数据集中的大多数列创建了这些特征的变体，因此我的最终模型只使用了一个子集，仅包含最强且通常与得分直接相关的特征。

覆盖

我在第一轮中 4 个模型差异最大的比赛上进行了对冲。这恰好是 SF Austin 对阵 Georgia Tech 的比赛，所以我有一个提交全押 SF Austin，另一个提交全押 GT。

其他说明

我使用了历史上所有的比赛数据（包括锦标赛内外的数据）来训练模型，但将不同年份的每支球队视为不同的实体。我还对近年和锦标赛比赛的数据赋予了比其他数据更高的权重。

第5名解决方案概述

进攻和防守实力评级 (OPR 和 DPR)

模型

覆盖

其他说明

同比赛其他方案