返回列表

Minimum linear regression (5th-place)

474. Tabular Playground Series - Jan 2022 | tabular-playground-series-jan-2022

开始: 2022-01-01 结束: 2022-01-31 销量与需求预测 数据算法赛
最小线性回归(第5名)

最小线性回归(第5名)

作者:🐢 Jun Koda
比赛排名:第5名

感谢 Kaggle 举办了这场入门级的表格数据竞赛。我很期待能参加有奖牌的表格/销售类竞赛。

除了 GDP 之外,我并没有理解长期的演变趋势,并且在一周前就放弃了。但既然意外获得了第5名,我就在这里写下我的理解。

模型总结

  • 具有 29 个系数 + 1 个偏置的线性回归。
  • 所有年份被同等对待,没有对 2019 年进行外推,因为我没有理解趋势。
  • 仅最小化 log(num_sold/GDP) 的均方误差,即标准的线性回归。
  • 训练集 SMAPE 4.29899,Public LB 4.13522,Private 4.66955。

代码见 Notebook:https://www.kaggle.com/junkoda/holiday-kernel

请注意,我并不认为这是最好的方法,我只是截止日期前放弃了。该模型参数数量较少,因此避免了过拟合,但放弃未来的外推不可能是最好的方法。如果说我的模型有什么可取之处,那可能就是我处理节假日的方式。

特征

[1] 国家、商店、产品和工作日(周五和周末)具有恒定因子;即 log(num_sold) 中的恒定偏移,正如 AmbrosM 的精彩 Notebook 所示(祝贺获得第1名!):

https://www.kaggle.com/ambrosm/tpsjan22-03-linear-model

7 个参数:周五、周末、挪威、瑞典、帽子、贴纸、Rama

[2] 产品马克杯、帽子分别具有余弦和正弦年度调制,贴纸没有。我没有看到相移或更高阶的傅里叶模式。马克杯余弦和帽子正弦振幅各 2 个参数。

[3] 节假日激增具有一个共同的高斯形状,在节假日后 4.5 天达到峰值,除了圣诞节的高度要大得多。

  • 标准假期的 10 天对应 10 个参数。特征是“今天是假期后的第 n 天”(0 ≦ n < 10)的二进制标志;这种表示可以处理重叠的假期,这些假期由于固定与非固定日期的原因每年都会变化。
  • 圣诞节类似的 10 个参数

高斯非线性拟合效果同样好,得到的偏移约为 0.45 天,振幅约为 0.15(在 log(num_sold) 中),宽度 σ 约为 3。由于参数较少,高斯拟合的统计误差较小,但可能会欠拟合;我没有做详细的比较。圣诞节稍微宽一些,但如果为圣诞节选择超过 1 天,可能会有相同的偏移和宽度,但我没有尝试。

假期的影响因国家而异:

Holiday Figure

我没能理解的地方

Residual Country

Piecewise Linear

  • 残差在时间上看起来是分段线性的,每年都不同且不连续。斜率可能在 3 个国家之间是共同的,但偏移量似乎不同。
  • 2015 年初存在较大误差。
  • 似乎存在持续 1-2 个月的相关误差,但我没有发现任何规律。

我查看了一些外部数据,但除了 GDP 和官方假期的日期外,没有发现任何有用的东西。我曾想过利用公共排行榜探测 2019 年的线性函数会有用,但我懒得去做了。

Carl McBride Ellis 提供的 GDP 数据:
https://www.kaggle.com/c/tabular-playground-series-jan-2022/discussion/298911

有几件事是应该做的,但我没做:

同比赛其他方案