第14名方案
第14名方案
作者:Tsuru
比赛排名:第14名
感谢大家带来了一场精彩的比赛。祝贺获奖者。我在Kaggle上获得了我的第一枚奖牌,也是我的第一枚个人金牌。
我的解决方案概要如下:
1. 模型:针对每个 [store_id] x [dept_id] 使用 LGBM(总共70个模型)
- 目标函数:tweedie(自定义目标函数并未提升CV分数)
- 权重:累计实际销售额(过去28天)(我没有使用RMSSE的缩放比例)
2. 数据时间段:2014/1/1~(2014年之前的趋势有所不同)
3. 特征工程
- 滞后需求 (Lag demand)
28天位移 + 7天、14天、28天等的均值和标准差。
(针对1~7天、14天、21天逐天计算,以及递归方式:我在每个 [store_id] x [dept_id] 上使用CV分数较低的那种)
- 销售价格
销售价格的一些统计数据,以及 CA_3 地区相同 item_id 的销售价格。
(CA_3 地区相同 item_id 的销售价格解释了某些商品的零销售期。)
- 日历
对 id(商店、商品等)x [星期、事件或月份] 进行目标编码,或者 id 与过去3个月、1年、2年的数据组合(滚动计算,无泄露)。
这些变量效果很好。
此外,我根据排列重要性 删除了一些变量。
4. 交叉验证 (CV):最后 3 x 28 天,以及(提交:最后 2 x 28 天 + 1年前同期)