10th Place Sharing

第10名方案分享

作者：Anthony Chiu (Team: Establish The Run)
比赛：NFL Big Data Bowl 2020

首先感谢 NFL 和 Kaggle 举办这样的比赛。这对我们来说是一段充满学习的旅程，无论是在 NFL 领域知识方面，还是在尝试不同的数据科学想法方面。

我们所做的很简单：尝试很多，失败很多。但最终发现了一些有用的东西。由于我们团队中没有人习惯使用复杂的深度学习（DL）模型，我们只使用了多层感知机（MLP），并且主要专注于提取智能特征以及如何将它们输入到 MLP 中。

我们对我们的分数感到满意，因为我们仅凭 MLP 和许多特征就获得了 1268 分。

让我们通过更多细节：

模型与特征

我们的模型只是一个普通的神经网络（NN），有 5 个输入：

其中 2 个用于分类特征，
1 个用于距离/速度和距离/速度投影特征，
1 个用于角度和角度投影特征，
1 个用于聚合统计特征。

验证

我们在“周”上使用了 5 折分组 K 折交叉验证，但实际上结果与按“比赛ID”分组相似。

我们仅使用 > 2017 的 CV 数据来验证和提前停止我们的模型，因此在第二阶段，它将基于 2018+2019 数据进行提前停止。

关于跑卫的速度和加速度

跑卫的加速度在 2017 年对预测码数有用，但在 2018 年没用：

跑卫的速度在 2018 年与距离呈超线性关系，但在 2017 年不是：

由于主办方说速度（S）和加速度（A）都是通过距离计算的，我们开始认为根本原因是位置追踪。但随后主办方表示位置追踪是准确的。因此，我们的下一个猜测是关于采样频率。可能是传感器读数的时间戳搞乱了，或者是分辨率问题：因为 2017 年和 2018 年的传感器不同，它们的读数可能被强制转换为相同的频率 10 Hz。

我们不知道答案，但我们随后尝试了以下两件事：

用 2018 年的均值和标准差重新调整 2017 年的 A 和 S -> LB 略有提高。
S = Dis * 10 -> 没有提高，所以我们放弃了它。

好了，让我们谈谈那些神奇的提升点：

提升点 1：码数后处理

与其他团队一样，我们根据 YardLine 修正了一些不可能的码数预测。

提升点 2：角度

Alpha：球员与跑卫之间的相对角度。
Theta：Alpha 的反向。
Beta：跑卫方向与 Theta 之间的差异，它指示球员是否阻挡了跑卫的路径。较小的 abs(Beta) 表示跑卫正跑向该球员。

提升点 3：未来特征估计

关于接下来 0.5、0.75、1、1.25、1.5 秒内会发生什么的特征：

跑卫与最近球员之间的距离。
防守球员与进攻球员之间的距离。