1st place solution

第一名解决方案

作者： Yeonjun In
发布时间： 2020年7月3日

各位 Kaggle 参赛者好！:)

这是我第一次分享解决方案，希望对大家有所帮助。

致谢

首先，我要感谢比赛组织者和参加比赛的数据科学家们。我真的从大家身上学到了很多，非常感谢。（特别是 @kyakovlev 的内核和讨论，真的非常有帮助。）

我使用的方法非常简单，并没有什么了不起。这一切都基于社区的见解。

基于时间的划分：模拟训练/测试集划分

我对 WRMSSE 这个指标并不熟悉，而且数据结构也很复杂。所以我首先阅读了组织者提供的文档，并从精彩的 Notebook 和讨论中获得了很多见解。

等等……

通过这些见解，我决定了两件事：

起初，我使用非递归方法建立了基线，我发现 CV 和 Public Score 有很大的差异（标准差大）。

然后，基于 @kyakovlev 的内核，我使用递归方法建立了第二个基线，但仍然存在很大的差异。

这里有趣的部分是：

基于这些见解，我预计将非递归和递归方法集成可能会带来更好的鲁棒性。

然后，我将其选为最终模型。

正如我之前提到的，我的方法非常简单，并没有什么了不起。所以我完全没有预料到这个结果。我很幸运能学到很多东西并获得令人难以置信的结果。

感谢所有的 Kaggle 参赛者！！

（也非常感谢许多在这个比赛中花费了大量时间和精力的参赛者。这一切都归功于你们。）