566. Playground Series - Season 3, Episode 19 | playground-series-s3e19
大家好!
首先,我要感谢Kaggle组织了这次精彩的比赛。Playground系列是学习和提升机器学习与数据科学的绝佳场所。许多新参与者在许多重点比赛中发现处理大量复杂数据非常困难。
由于这是我首次在时间序列预测中取得最佳排名,这场比赛真的让我受益匪浅。我想通过分享我的解决方案,将我从这场比赛中学到的东西与他人分享。
我主要参考了高分公开的笔记本来了解特征工程和建模的思路,我训练了三个模型,但都没有得到SMAPE < 7.44。我使用的模型如下:
在本周末,我尝试对不同模型进行集成:感谢@paddykb和@christph的工作,这些工作极大地帮助我提升了我的公开排行榜(LB)分数。
https://www.kaggle.com/code/christph/gam-with-holidays
https://www.kaggle.com/code/paddykb/ps-s3e19-tableau-eda-gam-fit
因此,我决定对总共5个模型进行平均集成,在公开LB上得到了6.58分,在私有LB上得到了7.44分。
在截止日期的最后一天,我尝试了一些魔术技巧。这个想法来自@ravi20076关于提交的讨论。正如他所建议的,对预测结果进行四舍五入可以提高LB分数,所以我决定对我的提交结果进行四舍五入,结果在公开LB上分数从6.58提升到了5.800。
在看到仅通过四舍五入就能提升分数后,我想到在每个预测结果上加1可能会进一步提高LB分数,结果确实如此,我的公开LB分数从5.800提升到了5.596,私有LB分数为6.47,最终获得第16名。
谢谢!
快乐学习!