1st place solution

第一名解决方案

作者： danzel | 排名： 第1名

首先，我想说我感到非常荣幸能获得冠军（这是我第一次在 Kaggle 上成为“焦点”人物 😏）！我真的很喜欢这个数据集——尽管它被标记为“没有什么挑战性”（但我认为它真的很有挑战性，很有趣，我也学到了很多东西）。

正如大家所猜测的那样，我的解决方案部分基于DAE 转换（去噪自编码器）的数据，我将其作为输入用于经过重度正则化的多层感知机（MLP）。

基本上，我将训练数据和测试数据都输入到第一层的去噪自编码器中，并将其权重作为第二层神经网络的新数据集（见下图）。

DAE 的酷之处在于，如果操作得当，模型的权重将包含大量的特征信息（不再需要特征工程 🔥）。事实证明，DAE 能够捕捉到一些有助于第二阶段神经网络的信息。

此外，还有 LightGBM 模型（谁会想不到呢）。这两种变体（DAE 输入 MLP 和 LightGBM）在不同的设置下进行了训练，最后通过岭回归模型和简单的平均进行堆叠。我把大部分时间都花在了 DAE 的训练和验证上。我使用的 LightGBM 模型是基于稍作调整的 @kailex 参数 (💪)。

我最终获胜的提交结果是由多个 DAE-MLP 和一些 LightGBM 模型组成的岭回归堆叠集成：

本地 10 折交叉验证 = 0.69289
公开分数 = 0.69530
私有分数 0.69381

我所有的神经网络通过平均堆叠后的分数：

本地 10 折交叉验证 = 0.693773
公开分数 = 0.69620
私有分数 = 0.69472

如果你对 DAE 数据感兴趣，我创建了一个自定义数据集供测试。欢迎随意使用。我很想听听你的想法和发现！

✔️ 数据集链接 DAE Representation Dataset

我也对我的解决方案做了一个简短的总结/写文。

✔️ 解决方案详情链接 1st Place: Turn your data into DAEta

干杯，
Daniel

第一名解决方案

同比赛其他方案