返回列表

6th solution

453. MLB Player Digital Engagement Forecasting | mlb-player-digital-engagement-forecasting

开始: 2021-06-10 结束: 2021-09-09 体育商业 数据算法赛
第6名方案

第6名方案

作者: Takayoshi Makabe (Makabe), tea໒꒱ (tea), sqrt4kaido
比赛: MLB Player Digital Engagement Forecasting
排名: 第6名 (金牌)

首先,我也要感谢比赛主办方和所有的参赛者。距离我在 APTOS 比赛中获得第一枚银牌已经过去了大约两年,我终于成为了 Kaggle Master。我现在非常高兴。虽然我还是个新人,但我会怀着真诚的态度继续从 Kaggle 学习。

我也很高兴能在我最喜欢的运动——棒球相关的比赛中获得金牌。棒球在世界舞台上可能是一项小众运动,但在日本非常受欢迎,我每周都会观看 NPB(日本职业棒球组织)的比赛。我希望这项迷人且充满策略的运动能在全世界更受欢迎!

致队友 (tea & sqrt4kaido)

我之前一直以个人身份参加比赛,这次 MLB 比赛是我第一次组队参赛。虽然我在个人参赛时学到了很多东西,但这次我学到了更多。多亏了你们大量的想法,我才获得了金牌。

tea 的部分

模型

  • LGBM (有滞后 / 无滞后)
  • CatBoost (有滞后 / 无滞后)
    使用 optuna 优化超参数。

训练与验证

  • 使用 2018-01-01 ~ 2021-05-31 的数据进行训练,使用 2021-06-01 ~ 2021-07-17 进行验证。
  • 在测试期间,我使用 2018-01-01 ~ 2021-06-30 的数据进行训练。
  • 仅限赛季内的数据。

主要有效特征

  • 目标滞后(45天)
  • 球员目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
    • 使用 2021 年 4 月、5 月和 6 月的各自统计数据。
    • 同时也使用比赛日和非比赛日的各自统计数据。
  • 球队目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
    • 仅使用 2021 年 6 月的统计数据。
  • 距离上一场比赛的天数 / 名单状态
  • 距离年初 / 月初的天数
  • 星期几
  • 距离出道年份的年数
  • 年龄
  • 位置
  • 球员状态
  • 球员比赛数据特征

sqrt4kaido 的部分

模型

  • 仅使用 LGBM,无滞后
  1. 第一个种子,仅使用测试集中的球员进行训练。
  2. 第二个种子,仅使用测试集中的球员进行训练。
  3. 第一个种子。使用所有球员进行训练。
    使用 optuna 优化超参数。
    在更新 train.csv 之前,我的单模型最佳得分是 1.3146。

训练与验证

  • 训练阶段
    使用 2018-01-01 ~ 2021-03-31 的数据进行训练,使用 2021-04-01 ~ 2021-04-30 进行验证。
  • 更新 train.csv 后
    使用 2018-01-01 ~ 2021-05-31 的数据进行训练,使用 2021-06-01 ~ 2021-06-30 进行验证。
    我没有使用 7 月上半月的数据,因为与其他月份不同,那里的数值非常小。
  • 仅限赛季内的数据 <- 很重要

主要有效特征

  • 球员目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
    使用 2021 年 6 月的各自统计数据。这个特征泄露到了验证数据中,但我们使用了它,因为它在公开测试中也有效。
  • 球队目标统计量(均值、中位数、最大值、最小值、方差、偏度、峰度)
    同上。
  • 赛季信息
    季前/季后?常规赛?全明星赛日期?等。
  • 获奖标志
  • 距离上一场比赛的天数 / 名单状态 <- 很重要
同比赛其他方案