637. Playground Series - Season 5, Episode 1 | playground-series-s5e1
首先,感谢 Kaggle 在 16 个月后组织了这场 playground 预测竞赛!(终于)。这是我第一次单独获得竞赛前 1%,而且是没有复制或集成公共 Notebook,而是使用我自己对这个竞赛什么有效的直觉完成的。
我将在此简要概述我的解决方案,同时详细阐述公共 Notebook/讨论中未见过的部分。解决方案代码在 这里 - 今天晚些时候将添加一些注释。
正如 @siukeitin 在 这个讨论 中分享的,销售额的“分布”遵循某种模式,可以按国家(GDP 比率)、产品和商店进行分解。
商店
跨年份未观察到明显趋势 -> 为每个商店分配一个恒定值
产品
观察到季节性,频率取决于产品为 1 或 2 年。因此为每个产品拟合频率=2 年的傅里叶级数

国家
使用每年国家 GDP / 每年 GDP 总和的值
星期几
周日 > 周六 > 周五 > 其他任何天的销售量
注意:计算这些比率时应排除肯尼亚和加拿大的销售额,因为它们的空值 (NULLs) 可能会引入偏差。
通过探索性数据分析 (EDA),我们可以发现节假日的影响持续到实际节假日之后,大多直到节假日后 7-9 天。
T 日 是受节假日影响的日子之一,计算 T 日销售额 / T-7 日销售额,如果 T-7 日 是节假日,则向后传播比率直到找到非节假日既然我们对销售额的“分解”有了大致了解,剩下的就是估算 2010 年至 2019 年每个日历年的总销售额。
最简单的方法是拟合线性最小二乘法来根据总 GDP 估算年销售额(由于 R^2 高达 0.997)- 但这带来了一些挑战。
虽然最小二乘线估计斜率(或总销售额 / GDP)为 84.54,但我们注意到残差遵循周期性趋势!
令 R(T) 为年份 T 的总销售额/GDP 比率:

因此,需要乘数,并且应该预期乘数为:
通过 LB 探测发现 2017 年的最佳乘数是 1.08。不幸的是,我没有找到任何启发式方法来准确估计乘数,不得不猜测它。如果有人找到了,欢迎在评论中留言。
对于一次提交,我选择了:
对于另一次提交,我选择了:
第二次提交在私榜上得分更高,这表明将 2019 年的乘数估计为 1.11 是不准确的。
我想向 @cdeotte 表示诚挚的感谢,感谢多年来分享适合初学者的教程!回想当初我第一次参加 LLM Science Exam 竞赛时,你的 入门 Notebook 在指导我们改进解决方案方面起到了不可思议的帮助,尤其是在我和可能许多其他人都在挣扎的时候。你慷慨地分享知识是无价的,我真的很感激它对我的成长产生的影响。谢谢你!