返回列表

7th Place Solution

566. Playground Series - Season 3, Episode 19 | playground-series-s3e19

开始: 2023-07-11 结束: 2023-07-31 销量与需求预测 数据算法赛

第7名解决方案

作者: SeanInAction

竞赛排名: 第7名

发布时间: 2023年8月1日

总票数: 6票

总的来说,这是一次非常愉快的竞赛体验!整个竞赛过程大致可以分为三个部分/阶段:实现解决方案、探测阶段(感谢 @paddykb)以及模型集成。

实施解决方案

竞赛前半段的主要工作是将这个笔记本 https://www.kaggle.com/code/kitadakiyoto/tpssep22-predict-by-linear-regression-1st-place 应用到本竞赛中,使用 holidays 库提取节假日信息,并引入相对GDP的对数作为额外特征。线性回归的公开 MAPE 约为 70,经过一些后处理尝试后,随机森林的公开 MAPE 降至约 30。

探测阶段

受 paddykb 在其 notebook 中的发现启发,我将2022年所有国家的相对GDP设为0.4,实际上使所有国家处于相似水平。仅这一项简单修改就将公开 MAPE 降至约 7.5。在经过一些标准回归模型的测试后,Extra Trees 表现最佳,在将 num_sold 转换为整数并减去1后,公开 MAPE 达到约 6.13。

模型集成

这部分我比较偷懒,直接使用了我的最佳公开分数提交结果和 paddykb 的公开 notebook(差点忘了这个“惊喜”)。受此讨论 https://www.kaggle.com/competitions/playground-series-s3e19/discussion/428123 的启发,我将 paddykb 的公开 csv 结果加了1。最佳私有分数约为 5.93 MAPE(公开 MAPE 约 5.00)是通过 0.825 × (paddykb 的 csv) + 0.175 × (我的 csv) 的方式获得的,最后对数字进行了四舍五入。

一些思考

在这场比赛中,盲目跟随公开 LB 而非使用 CV 分数似乎对我有效;我认为时间序列过于遵循趋势和周期性,以至于2022年的公开 LB 也无法避免跟随。总之,我认为借鉴和参考公开 notebook 与讨论中的思路和方法,帮助我取得了不错的排名,尽管统计领域的一切都必然涉及运气成分。

同比赛其他方案