第22名方案
第22名方案
作者:chumajin (Grandmaster)
发布时间:2021-08-04
首先,非常感谢那些支持我、给我的EDA点赞并让我感到兴奋的人!我享受了各种各样的体验。排名靠前的大佬们真的很厉害,我非常尊敬他们。
我详细分享了我的解决方案(内有日语解释)。这是训练数据更新(泄露)前的第12名解决方案。
但我不知道实际结果如何。如果我得分变差或者提交出错,请笑话我吧……(我也会自嘲的)
[简短总结]
- 我只使用了Optuna和LGBM。通过改变特征创建的集成模型,Public LB得分为1.3019。
- 交叉验证(CV)采用的是对target1到target4取平均后的5折交叉验证(5 kfold)。
- 在我的第一阶段,我使用了Kaggle工作人员发布的合并代码。这个LGBM模型的得分是1.3490。
- 在我的第二阶段,因为我们要知道正确答案,所以我添加了31天前目标值的统计特征。这个模型的得分提高到了1.3373。因为内存不足,我使用了GCP。
- 在我的第三阶段,我使用了目标值的对数尺度,并剔除了0和100的值。我发现如果使用目标值的对数尺度,直方图会很干净。这个模型的得分提高到了1.3256。
- 我集成了用其他特征制作的模型和针对每个位置制作的模型。这些模型的得分提高到了1.3144。
- 此外,无安打比赛(no hitter)是非常高的目标值。所以我修正了它(得分1.3073)。我还发现大谷翔平的预测值与LGBM的预测不匹配,并修正了差异(也许这是过拟合)。最终我达到了1.3019。
非常感谢大家,祝大家好运!