537. 1st and Future - Player Contact Detection | nfl-player-contact-detection
为了供以后参考,我将分享比赛后的实验结果 (LB: 0.78703)。我的原始解决方案可在此处找到 (Private LB: 0.76741)。
首先,我感谢其他人分享的所有解决方案。我从他们的解决方案中获得了很多见解。例如,在 CNN 中使用独立通道处理数值特征来自 Team Hidrogen 的方案,而使用“球员-任何人”和“球员-地面”接触信息则是采纳了 Qishen 和 Bo 的方案(以及第 18 名团队的做法)。
5 通道 2D-CNN 相比我原来的架构(3 通道 2.5D-CNN)带来了显著的提升 (+0.54%),同时也大大减少了训练/评分时间。
最大的收益之一来自严格的 CV 分割。正如我在帖子中已经提到的,减少球员重复的折分割极大地改善了 CV/LB 的相关性。多亏了这种折分割,我可以通过第 3 阶段的附加特征进一步提升 LB (+0.87%)。
序列级别剪枝 (+0.16%) 和 1D-CNN (+0.26%) 进一步提高了分数,尽管在 CV 上没有增益。可能的原因之一是我使用的 CV 太严格了,而测试数据中可能包含少量也出现在训练数据中的球员。
我还通过以下技巧减少了评分时间。
@lru_cache (2小时 -> 1小时)| 提交序号 | CV | Public LB | Private LB | 架构 | 描述 | #特征(p2g) |
|---|---|---|---|---|---|---|
| 1 | 0.7950 | 0.7701 | 0.7738 | XGB + 2D-CNN(5通道) + XGB | 阶段1特征 + 阶段2预测分数 | 1032 |
| 2 | 0.8038 | 0.7806 | 0.7773 | XGB + 2D-CNN(5通道) + XGB | #1 + 阶段2预测分数的滞后和组特征 | 1057 |
| 3 | 0.8035 | 0.7788 | 0.7799 |