356. NFL Big Data Bowl | nfl-big-data-bowl-2020
首先感谢 NFL 和 Kaggle 举办这样的比赛。这对我们来说是一段充满学习的旅程,无论是在 NFL 领域知识方面,还是在尝试不同的数据科学想法方面。
我们所做的很简单:尝试很多,失败很多。但最终发现了一些有用的东西。由于我们团队中没有人习惯使用复杂的深度学习(DL)模型,我们只使用了多层感知机(MLP),并且主要专注于提取智能特征以及如何将它们输入到 MLP 中。
我们对我们的分数感到满意,因为我们仅凭 MLP 和许多特征就获得了 1268 分。
让我们通过更多细节:
我们的模型只是一个普通的神经网络(NN),有 5 个输入:
我们在“周”上使用了 5 折分组 K 折交叉验证,但实际上结果与按“比赛ID”分组相似。
我们仅使用 > 2017 的 CV 数据来验证和提前停止我们的模型,因此在第二阶段,它将基于 2018+2019 数据进行提前停止。
跑卫的加速度在 2017 年对预测码数有用,但在 2018 年没用:
跑卫的速度在 2018 年与距离呈超线性关系,但在 2017 年不是:
由于主办方说速度(S)和加速度(A)都是通过距离计算的,我们开始认为根本原因是位置追踪。但随后主办方表示位置追踪是准确的。因此,我们的下一个猜测是关于采样频率。可能是传感器读数的时间戳搞乱了,或者是分辨率问题:因为 2017 年和 2018 年的传感器不同,它们的读数可能被强制转换为相同的频率 10 Hz。
我们不知道答案,但我们随后尝试了以下两件事:
好了,让我们谈谈那些神奇的提升点:
与其他团队一样,我们根据 YardLine 修正了一些不可能的码数预测。
关于接下来 0.5、0.75、1、1.25、1.5 秒内会发生什么的特征: