返回列表

22th solution

453. MLB Player Digital Engagement Forecasting | mlb-player-digital-engagement-forecasting

开始: 2021-06-10 结束: 2021-09-09 体育商业 数据算法赛
第22名方案

第22名方案

作者:chumajin (Grandmaster)
发布时间:2021-08-04

首先,非常感谢那些支持我、给我的EDA点赞并让我感到兴奋的人!我享受了各种各样的体验。排名靠前的大佬们真的很厉害,我非常尊敬他们。

我详细分享了我的解决方案(内有日语解释)。这是训练数据更新(泄露)前的第12名解决方案。

但我不知道实际结果如何。如果我得分变差或者提交出错,请笑话我吧……(我也会自嘲的)

[简短总结]

  • 我只使用了Optuna和LGBM。通过改变特征创建的集成模型,Public LB得分为1.3019。
  • 交叉验证(CV)采用的是对target1到target4取平均后的5折交叉验证(5 kfold)。
  • 在我的第一阶段,我使用了Kaggle工作人员发布的合并代码。这个LGBM模型的得分是1.3490。
  • 在我的第二阶段,因为我们要知道正确答案,所以我添加了31天前目标值的统计特征。这个模型的得分提高到了1.3373。因为内存不足,我使用了GCP。
  • 在我的第三阶段,我使用了目标值的对数尺度,并剔除了0和100的值。我发现如果使用目标值的对数尺度,直方图会很干净。这个模型的得分提高到了1.3256。
  • 我集成了用其他特征制作的模型和针对每个位置制作的模型。这些模型的得分提高到了1.3144。
  • 此外,无安打比赛(no hitter)是非常高的目标值。所以我修正了它(得分1.3073)。我还发现大谷翔平的预测值与LGBM的预测不匹配,并修正了差异(也许这是过拟合)。最终我达到了1.3019。

非常感谢大家,祝大家好运!

同比赛其他方案