474. Tabular Playground Series - Jan 2022 | tabular-playground-series-jan-2022
感谢 Kaggle 举办了这场入门级的表格数据竞赛。我很期待能参加有奖牌的表格/销售类竞赛。
除了 GDP 之外,我并没有理解长期的演变趋势,并且在一周前就放弃了。但既然意外获得了第5名,我就在这里写下我的理解。
代码见 Notebook:https://www.kaggle.com/junkoda/holiday-kernel
请注意,我并不认为这是最好的方法,我只是截止日期前放弃了。该模型参数数量较少,因此避免了过拟合,但放弃未来的外推不可能是最好的方法。如果说我的模型有什么可取之处,那可能就是我处理节假日的方式。
[1] 国家、商店、产品和工作日(周五和周末)具有恒定因子;即 log(num_sold) 中的恒定偏移,正如 AmbrosM 的精彩 Notebook 所示(祝贺获得第1名!):
https://www.kaggle.com/ambrosm/tpsjan22-03-linear-model
7 个参数:周五、周末、挪威、瑞典、帽子、贴纸、Rama
[2] 产品马克杯、帽子分别具有纯余弦和正弦年度调制,贴纸没有。我没有看到相移或更高阶的傅里叶模式。马克杯余弦和帽子正弦振幅各 2 个参数。
[3] 节假日激增具有一个共同的高斯形状,在节假日后 4.5 天达到峰值,除了圣诞节的高度要大得多。
高斯非线性拟合效果同样好,得到的偏移约为 0.45 天,振幅约为 0.15(在 log(num_sold) 中),宽度 σ 约为 3。由于参数较少,高斯拟合的统计误差较小,但可能会欠拟合;我没有做详细的比较。圣诞节稍微宽一些,但如果为圣诞节选择超过 1 天,可能会有相同的偏移和宽度,但我没有尝试。
假期的影响因国家而异:



我查看了一些外部数据,但除了 GDP 和官方假期的日期外,没有发现任何有用的东西。我曾想过利用公共排行榜探测 2019 年的线性函数会有用,但我懒得去做了。
Carl McBride Ellis 提供的 GDP 数据:
https://www.kaggle.com/c/tabular-playground-series-jan-2022/discussion/298911
有几件事是应该做的,但我没做: