356. NFL Big Data Bowl | nfl-big-data-bowl-2020
众所周知,2017年的数据与2018年不同,数据清洗在本次比赛中非常重要。
10 * Dis 来替换S。这也让我提升了0.0002的分数。
总共使用了36个特征:
['IsRusher','IsRusherTeam','X','Y','Dir_X','Dir_Y', 'Orientation_X','Orientation_Y','S','DistanceToBall', 'BallDistanceX','BallDistanceY','BallAngleX','BallAngleY', 'related_horizontal_v','related_vertical_v', 'related_horizontal_A','related_vertical_A', 'TeamDistance','EnermyTeamDistance', 'TeamXstd','EnermyXstd', 'EnermyYstd','TeamYstd', 'DistanceToBallRank','DistanceToBallRank_AttTeam','DistanceToBallRank_DefTeam', 'YardLine','NextX','NextY', 'NextDistanceToBall', 'BallNextAngleX','BallNextAngleY', 'BallNextDistanceX','BallNextDistanceY','A']
训练时始终包含2017年的数据,对2018年的数据按周进行3折分组,评估时仅使用2018年的数据。通过这种方式,CV分数与Public LB分数非常接近。
Transformer(2层编码器 + 2层解码器),大量的注意力头是关键。
.png?generation=1574922346398274&alt=media)
由于我们只有4小时的CPU训练时间,快照集成似乎是一个完美的选择,因为它不会增加训练时间,并且明显优于单一模型。
在我的最终提交中,我重复训练(使用所有数据)了11000秒和9000秒(安全模式)。