566. Playground Series - Season 3, Episode 19 | playground-series-s3e19
总的来说,这是一次非常愉快的竞赛体验!整个竞赛过程大致可以分为三个部分/阶段:实现解决方案、探测阶段(感谢 @paddykb)以及模型集成。
竞赛前半段的主要工作是将这个笔记本 https://www.kaggle.com/code/kitadakiyoto/tpssep22-predict-by-linear-regression-1st-place 应用到本竞赛中,使用 holidays 库提取节假日信息,并引入相对GDP的对数作为额外特征。线性回归的公开 MAPE 约为 70,经过一些后处理尝试后,随机森林的公开 MAPE 降至约 30。
受 paddykb 在其 notebook 中的发现启发,我将2022年所有国家的相对GDP设为0.4,实际上使所有国家处于相似水平。仅这一项简单修改就将公开 MAPE 降至约 7.5。在经过一些标准回归模型的测试后,Extra Trees 表现最佳,在将 num_sold 转换为整数并减去1后,公开 MAPE 达到约 6.13。
这部分我比较偷懒,直接使用了我的最佳公开分数提交结果和 paddykb 的公开 notebook(差点忘了这个“惊喜”)。受此讨论 https://www.kaggle.com/competitions/playground-series-s3e19/discussion/428123 的启发,我将 paddykb 的公开 csv 结果加了1。最佳私有分数约为 5.93 MAPE(公开 MAPE 约 5.00)是通过 0.825 × (paddykb 的 csv) + 0.175 × (我的 csv) 的方式获得的,最后对数字进行了四舍五入。
在这场比赛中,盲目跟随公开 LB 而非使用 CV 分数似乎对我有效;我认为时间序列过于遵循趋势和周期性,以至于2022年的公开 LB 也无法避免跟随。总之,我认为借鉴和参考公开 notebook 与讨论中的思路和方法,帮助我取得了不错的排名,尽管统计领域的一切都必然涉及运气成分。