第7名解决方案

作者: SeanInAction

竞赛排名: 第7名

发布时间: 2023年8月1日

总票数: 6票

总的来说，这是一次非常愉快的竞赛体验！整个竞赛过程大致可以分为三个部分/阶段：实现解决方案、探测阶段（感谢 @paddykb）以及模型集成。

实施解决方案

竞赛前半段的主要工作是将这个笔记本 https://www.kaggle.com/code/kitadakiyoto/tpssep22-predict-by-linear-regression-1st-place 应用到本竞赛中，使用 holidays 库提取节假日信息，并引入相对GDP的对数作为额外特征。线性回归的公开 MAPE 约为 70，经过一些后处理尝试后，随机森林的公开 MAPE 降至约 30。

探测阶段

受 paddykb 在其 notebook 中的发现启发，我将2022年所有国家的相对GDP设为0.4，实际上使所有国家处于相似水平。仅这一项简单修改就将公开 MAPE 降至约 7.5。在经过一些标准回归模型的测试后，Extra Trees 表现最佳，在将 num_sold 转换为整数并减去1后，公开 MAPE 达到约 6.13。

模型集成

这部分我比较偷懒，直接使用了我的最佳公开分数提交结果和 paddykb 的公开 notebook（差点忘了这个“惊喜”）。受此讨论 https://www.kaggle.com/competitions/playground-series-s3e19/discussion/428123 的启发，我将 paddykb 的公开 csv 结果加了1。最佳私有分数约为 5.93 MAPE（公开 MAPE 约 5.00）是通过 0.825 × (paddykb 的 csv) + 0.175 × (我的 csv) 的方式获得的，最后对数字进行了四舍五入。

一些思考

在这场比赛中，盲目跟随公开 LB 而非使用 CV 分数似乎对我有效；我认为时间序列过于遵循趋势和周期性，以至于2022年的公开 LB 也无法避免跟随。总之，我认为借鉴和参考公开 notebook 与讨论中的思路和方法，帮助我取得了不错的排名，尽管统计领域的一切都必然涉及运气成分。

7th Place Solution

第7名解决方案

实施解决方案

探测阶段

模型集成

一些思考

相关链接

同比赛其他方案