第6名方案
第6名方案
作者: Takayoshi Makabe (Makabe), tea໒꒱ (tea), sqrt4kaido
比赛: MLB Player Digital Engagement Forecasting
排名: 第6名 (金牌)
首先,我也要感谢比赛主办方和所有的参赛者。距离我在 APTOS 比赛中获得第一枚银牌已经过去了大约两年,我终于成为了 Kaggle Master。我现在非常高兴。虽然我还是个新人,但我会怀着真诚的态度继续从 Kaggle 学习。
我也很高兴能在我最喜欢的运动——棒球相关的比赛中获得金牌。棒球在世界舞台上可能是一项小众运动,但在日本非常受欢迎,我每周都会观看 NPB(日本职业棒球组织)的比赛。我希望这项迷人且充满策略的运动能在全世界更受欢迎!
我之前一直以个人身份参加比赛,这次 MLB 比赛是我第一次组队参赛。虽然我在个人参赛时学到了很多东西,但这次我学到了更多。多亏了你们大量的想法,我才获得了金牌。
tea 的部分
模型
- LGBM (有滞后 / 无滞后)
- CatBoost (有滞后 / 无滞后)
使用 optuna 优化超参数。
训练与验证
- 使用 2018-01-01 ~ 2021-05-31 的数据进行训练,使用 2021-06-01 ~ 2021-07-17 进行验证。
- 在测试期间,我使用 2018-01-01 ~ 2021-06-30 的数据进行训练。
- 仅限赛季内的数据。
主要有效特征
- 目标滞后(45天)
- 球员目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
- 使用 2021 年 4 月、5 月和 6 月的各自统计数据。
- 同时也使用比赛日和非比赛日的各自统计数据。
- 球队目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
- 距离上一场比赛的天数 / 名单状态
- 距离年初 / 月初的天数
- 星期几
- 距离出道年份的年数
- 年龄
- 位置
- 球员状态
- 球员比赛数据特征
sqrt4kaido 的部分
模型
- 第一个种子,仅使用测试集中的球员进行训练。
- 第二个种子,仅使用测试集中的球员进行训练。
- 第一个种子。使用所有球员进行训练。
使用 optuna 优化超参数。
在更新 train.csv 之前,我的单模型最佳得分是 1.3146。
训练与验证
- 训练阶段
使用 2018-01-01 ~ 2021-03-31 的数据进行训练,使用 2021-04-01 ~ 2021-04-30 进行验证。
- 更新 train.csv 后
使用 2018-01-01 ~ 2021-05-31 的数据进行训练,使用 2021-06-01 ~ 2021-06-30 进行验证。
我没有使用 7 月上半月的数据,因为与其他月份不同,那里的数值非常小。
- 仅限赛季内的数据 <- 很重要
主要有效特征
- 球员目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
使用 2021 年 6 月的各自统计数据。这个特征泄露到了验证数据中,但我们使用了它,因为它在公开测试中也有效。
- 球队目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
同上。
- 赛季信息
季前/季后?常规赛?全明星赛日期?等。
- 获奖标志
- 距离上一场比赛的天数 / 名单状态 <- 很重要