2nd Place Solution

第二名解决方案

作者: Branden Murray, mlandry, JohnM, KazAnova
发布时间: 2021-09-27

我们的最终模型是6个GBM模型的融合（5个LightGBM，1个Xgboost），所有模型都在相同的特征上进行训练。我们在数据的最后一个月进行验证，然后在完整的数据集上重新训练模型。

模型配置

我们的最终特征集包含超过1000个特征，主要分为以下3类：

目标聚合 - 每位球员的目标值历史全量和滚动12个月的均值/方差。
近期数据 - 每位球员过去20天/比赛的各种统计数据。例如，每位球员的 strikeouts_1_day_ago（1天前的三振数）、strikeouts_2_days_ago（2天前的三振数）……一直到 strikeouts_20_days_ago（20天前的三振数）。
领域知识特征 - 基于我们的棒球知识以及引发人们推特互动的因素构建的特征。例如，再见安打/全垒打通常会引发互动。其他特征包括无安打比赛、球员的胜利概率增加值（WPA，用于判断他们是否打了一场好比赛或参与了“高杠杆”时刻）、全垒打竞赛排名、球员是否被驱逐、防御率（ERA）及其排名等。

以下是我们最重要的部分特征：

提交笔记本 https://www.kaggle.com/brandenkmurray/mlb-predict-final