453. MLB Player Digital Engagement Forecasting | mlb-player-digital-engagement-forecasting
大家好,
我要感谢 Kaggle 和主办方举办了这么好的一场比赛。我也要感谢我的队友 (@Hyper-Positive-Yancy),他做了一些 EDA(探索性数据分析)并调整了神经网络(NN)。
我们最终的集成模型包括:
先发投手滞后特征
正如我在这里提到的,我使用了“先发投手滞后特征”。先发投手有时投球(每 4~5 天一次),但他们的目标值 1~4 很高。我建立了一个子模型来预测“这位投手明天是否会投球”。如果这位投手明天投球,他将获得很高的目标值。
“这位投手明天是否会投球”很容易预测,因为 MLB 投手有轮换(他们大多数人每 4~5 天投一次)。
当我将此特征与“目标滞后特征”一起使用时,我的公共 LB 分数变好了。
明天是否有比赛
在这次比赛中,我们要预测“明天”的参与度,但球员的统计数据是今天的。即使球员今天表现很好,如果明天没有比赛,我们也可以看到参与度值会很低。
因此,明天是否有比赛将是预测参与度的一个重要因素。
目标滞后特征
如前所述,此特征在与“先发投手滞后特征”一起使用时很有效。因此,我认为使用 3 到 7 天的目标滞后特征非常有意义。
但是,在评估期的后半段,我必须使用目标数据的预测值。这可能是导致我们后半段模型性能下降的因素之一。
击球贡献度
投球贡献度
为了公平地评估所有运动员,我们使用了针对运动员的评估指标。我主要使用两个评估指标:“击球贡献度”和“投球贡献度”。
我在这里找到了“击球贡献度”(抱歉该页面是日文)。
我在这里找到了“投球比赛分数”。
作为一个问题,即使是同一位置的投手,也有救援投手和先发投手之分,而且救援投手的投球比赛分数往往较低。因此,该球员作为先发投手投球的概率也被作为一个特征加入。
对于训练和验证,我使用了各个赛季内的数据。在训练数据更新后,我更改了验证方案。
训练集:2018年4月1日 至 2021年6月30日
验证集:2021年7月1日 至 2021年7月31日