25th Place Solution | 优胜方案

第25名方案

作者： Georgi Pamukov
比赛排名： 第25名

各位 Kaggle 的朋友们好 :)

首先，祝贺所有的获奖者和参与者！非常感谢所有贡献者分享了精彩的内核和话题！

我想分享一点自己的心得——下面是我方案的简要概述。

动机

我参加比赛的时间比较晚——距离结束只有两周时间。我的主要动机是尝试在表格数据（以及此类问题）中使用深度学习。

像大多数参赛者一样，我最终采用了两层学习架构：基础层和集成层。

由于起步较晚，我没有时间做太花哨的东西（特征工程通常是我的重点，但这次不是 😄）。

我最终准备了4个不同的数据集。在所有数据集上，我都按照这个很棒的内核进行了清洗（过滤掉坏行）（请点赞：https://www.kaggle.com/purist1024/ashrae-simple-data-cleanup-lb-1-08-no-leaks）。

使用插值法填充缺失值（所有数据集），并在其中一个数据集中添加了“is_missing”特征。此外还生成了一些：

在这个过程中，我从许多优秀的内核中汲取了灵感——请查看下面的列表，并为作者们的精彩作品点赞——他们值得您的肯定！

我的主要精力集中在这里，目标是建立尽可能多样化的模型。在基础层的任何模型中，我都没有使用泄漏数据。总共训练了19个模型。其中包括：

正如我所提到的，我的目标主要是尝试这些——所以我投入了大量的精力。我最好的神经网络没有让我失望——它们的性能接近最好的公共 LGBM（LB 1.09）——当然，它们对问题的“看法”非常不同。这使得它们在最终的集成中非常有用，我主要将最终的好成绩归功于此。一些在这里效果很好的方法：

分类变量的实体嵌入
Radam 优化器（这有点让我惊讶——在 CV 竞赛中，Radam 对我来说似乎没有产生巨大的差异——但在这里它显示了显著的优势。也许是网络的规模，或者是问题的复杂性……我肯定会深入研究这个）
Adam 配合 CyclicLR + ReduceLROnPlateau 调度器 + 更长时间的训练
天气滞后特征 + （少量）时间特征

没有起作用的方法：

简而言之——我对我的发现非常满意。在未来的表格数据竞赛中，深度神经网络肯定会成为我的考虑对象。

这是提升我分数的第二个主要因素。根据我以往的经验，当测试数据没有本质区别时，堆叠的效果优于混合（当然这可以有争议）。

（不）免责声明：

尽管如此……这在过去对我很有效。这次也一样。让我给你一些数字：

同比赛其他方案

1st Place Solution Team Isamu & Matt

2nd Place Solution

[3rd Place] Solution

5th Place Solution

9th place solution