返回列表

14th place solution

390. M5 Forecasting - Accuracy | m5-forecasting-accuracy

开始: 2020-03-03 结束: 2020-06-30 销量与需求预测 数据算法赛
第14名方案

第14名方案

作者:Tsuru
比赛排名:第14名

感谢大家带来了一场精彩的比赛。祝贺获奖者。我在Kaggle上获得了我的第一枚奖牌,也是我的第一枚个人金牌。

我的解决方案概要如下:

1. 模型:针对每个 [store_id] x [dept_id] 使用 LGBM(总共70个模型)

  • 目标函数:tweedie(自定义目标函数并未提升CV分数)
  • 权重:累计实际销售额(过去28天)(我没有使用RMSSE的缩放比例)

2. 数据时间段:2014/1/1~(2014年之前的趋势有所不同)

3. 特征工程

  • 滞后需求 (Lag demand)
    28天位移 + 7天、14天、28天等的均值和标准差。
    (针对1~7天、14天、21天逐天计算,以及递归方式:我在每个 [store_id] x [dept_id] 上使用CV分数较低的那种)
  • 销售价格
    销售价格的一些统计数据,以及 CA_3 地区相同 item_id 的销售价格。
    (CA_3 地区相同 item_id 的销售价格解释了某些商品的零销售期。)
  • 日历
    对 id(商店、商品等)x [星期、事件或月份] 进行目标编码,或者 id 与过去3个月、1年、2年的数据组合(滚动计算,无泄露)。
    这些变量效果很好。
    此外,我根据排列重要性 删除了一些变量。

4. 交叉验证 (CV):最后 3 x 28 天,以及(提交:最后 2 x 28 天 + 1年前同期)

同比赛其他方案