返回列表

4th place solution Overall pipeline & tabular part - Osaka Tigers

537. 1st and Future - Player Contact Detection | nfl-player-contact-detection

开始: 2022-12-05 结束: 2023-03-01 运动员表现 数据算法赛
第4名解决方案:整体流程与表格处理 - Osaka Tigers
作者:Leo0523 | 团队:Osaka Tigers | 排名:第4名

非常感谢主办方和 Kaggle 团队组织这次比赛。此外,我们也要感谢所有参赛者。我们很享受这次比赛并撰写了我们的解决方案。

我要感谢团队成员 @bamps53@nyanpn@kmat2019,他们拥有分析任务的顶尖才能。我可以与他们讨论并享受比赛的乐趣。

概览

简单的解决方案大纲见附图。

pipeline.png

在第一阶段,我们通过多个 CNN 预测接触。在第二阶段,将 CNN 预测结果、追踪数据和头盔数据聚合,并创建特征输入到 GBDT(梯度提升决策树)中。最后,我们计算 5 个模型的平均值,并针对球员-球员和球员-地面接触分别优化阈值。

第一阶段 CNN

k mat 模型

详情请参阅 https://www.kaggle.com/competitions/nfl-player-contact-detection/discussion/391719。我们可以获得 Endzone 和 Sideline 的预测值。

camaro 模型

即将推出。

第二阶段 聚合与二分类模型

我们排除了距离 > 3 的球员-球员对,剩下的约 88 万行数据用于训练第二阶段模型。在推理时,我们将距离 > 3 的对赋值为 0,仅预测剩余数据。

创建的特征

因为我们的 CNN 预测非常强,前 30 个重要特征中超过 90% 是 CNN 相关特征。以下是我们创建的部分特征。

追踪数据

  • 两名球员之间的距离
  • 距离 step0 的 distance/x_position/y_position
  • 与周围球员的距离(全部/同队/不同队)
  • 球队中心之间的距离
  • 到第二近球员的距离
  • 当前步数 / 最大步数
  • 加速度、速度、方向加速度等的滞后 / 提前特征
  • 按 按分组统计的 x, y, speed, acc, sa, distance 的 max/min/mean,以及相对于 step=0 的 x/y 位置差
  • “拦截者”特征
    • 寻找满足以下条件的球员 C,并将 distance(A, C) 和 ∠BAC 添加到球员 A-球员 B 的特征中(用于检测 C 拦截在 A-B 之间的情况)
      • ∠BAC < 30度
      • distance(A, C) < distance(A, B) 且 distance(B, C) < distance(A, B)

头盔数据

  • 边界框长宽比
  • 边界框重叠
  • 边界框坐标的滞后 / 提前特征
  • 边界框中心 x,y 的标准差/位移/差值
  • 边界框中心的距离

CNN 预测及元特征

  • 第一阶段 CNN 的 oof(袋外)预测
  • 按 分组的预测值的 max/min/std
  • 5/11/21 滚动特征
    • 用于补充没有头盔帧的 CNN 预测
  • 滞后 / 差分
  • 周围球员的球员-地面预测值

组合特征

  • 来自头盔-追踪坐标变换的配准误差(类似于第 6 名的解决方案,以及之前 K_mat 获得第 1 名的 NFL 解决方案)

模型

我们训练了四个不同第一阶段 CNN 组合的 GBDT 模型。我们还添加了一个 NN 模型(上图中的 "camaro2"),并计算这 5 个模型的简单平均值。预测

同比赛其他方案