22th solution

第22名方案

作者：chumajin (Grandmaster)
发布时间：2021-08-04

首先，非常感谢那些支持我、给我的EDA点赞并让我感到兴奋的人！我享受了各种各样的体验。排名靠前的大佬们真的很厉害，我非常尊敬他们。

我详细分享了我的解决方案（内有日语解释）。这是训练数据更新（泄露）前的第12名解决方案。

但我不知道实际结果如何。如果我得分变差或者提交出错，请笑话我吧……（我也会自嘲的）

[简短总结]

我只使用了Optuna和LGBM。通过改变特征创建的集成模型，Public LB得分为1.3019。
交叉验证（CV）采用的是对target1到target4取平均后的5折交叉验证（5 kfold）。
在我的第一阶段，我使用了Kaggle工作人员发布的合并代码。这个LGBM模型的得分是1.3490。
在我的第二阶段，因为我们要知道正确答案，所以我添加了31天前目标值的统计特征。这个模型的得分提高到了1.3373。因为内存不足，我使用了GCP。
在我的第三阶段，我使用了目标值的对数尺度，并剔除了0和100的值。我发现如果使用目标值的对数尺度，直方图会很干净。这个模型的得分提高到了1.3256。
我集成了用其他特征制作的模型和针对每个位置制作的模型。这些模型的得分提高到了1.3144。
此外，无安打比赛（no hitter）是非常高的目标值。所以我修正了它（得分1.3073）。我还发现大谷翔平的预测值与LGBM的预测不匹配，并修正了差异（也许这是过拟合）。最终我达到了1.3019。

非常感谢大家，祝大家好运！