返回列表

10th Place Sharing

356. NFL Big Data Bowl | nfl-big-data-bowl-2020

开始: 2019-10-09 结束: 2020-01-06 赛事预测 数据算法赛
第10名方案分享

第10名方案分享

作者:Anthony Chiu (Team: Establish The Run)
比赛:NFL Big Data Bowl 2020

首先感谢 NFL 和 Kaggle 举办这样的比赛。这对我们来说是一段充满学习的旅程,无论是在 NFL 领域知识方面,还是在尝试不同的数据科学想法方面。

我们所做的很简单:尝试很多,失败很多。但最终发现了一些有用的东西。由于我们团队中没有人习惯使用复杂的深度学习(DL)模型,我们只使用了多层感知机(MLP),并且主要专注于提取智能特征以及如何将它们输入到 MLP 中。

我们对我们的分数感到满意,因为我们仅凭 MLP 和许多特征就获得了 1268 分。

让我们通过更多细节:

模型与特征

我们的模型只是一个普通的神经网络(NN),有 5 个输入:

  • 其中 2 个用于分类特征,
  • 1 个用于距离/速度和距离/速度投影特征,
  • 1 个用于角度和角度投影特征,
  • 1 个用于聚合统计特征。
Model Architecture

验证

我们在“周”上使用了 5 折分组 K 折交叉验证,但实际上结果与按“比赛ID”分组相似。

我们仅使用 > 2017 的 CV 数据来验证和提前停止我们的模型,因此在第二阶段,它将基于 2018+2019 数据进行提前停止。

关于跑卫的速度和加速度

跑卫的加速度在 2017 年对预测码数有用,但在 2018 年没用:

Acceleration Analysis

跑卫的速度在 2018 年与距离呈超线性关系,但在 2017 年不是:

Speed Analysis

由于主办方说速度(S)和加速度(A)都是通过距离计算的,我们开始认为根本原因是位置追踪。但随后主办方表示位置追踪是准确的。因此,我们的下一个猜测是关于采样频率。可能是传感器读数的时间戳搞乱了,或者是分辨率问题:因为 2017 年和 2018 年的传感器不同,它们的读数可能被强制转换为相同的频率 10 Hz。

我们不知道答案,但我们随后尝试了以下两件事:

  1. 用 2018 年的均值和标准差重新调整 2017 年的 A 和 S -> LB 略有提高。
  2. S = Dis * 10 -> 没有提高,所以我们放弃了它。

好了,让我们谈谈那些神奇的提升点:

提升点 1:码数后处理

与其他团队一样,我们根据 YardLine 修正了一些不可能的码数预测。

提升点 2:角度

Angles Diagram
  • Alpha:球员与跑卫之间的相对角度。
  • Theta:Alpha 的反向。
  • Beta:跑卫方向与 Theta 之间的差异,它指示球员是否阻挡了跑卫的路径。较小的 abs(Beta) 表示跑卫正跑向该球员。

提升点 3:未来特征估计

关于接下来 0.5、0.75、1、1.25、1.5 秒内会发生什么的特征:

  1. 跑卫与最近球员之间的距离。
  2. 防守球员与进攻球员之间的距离。
同比赛其他方案