返回列表

1st place solution

417. Tabular Playground Series - Jan 2021 | tabular-playground-series-jan-2021

开始: 2021-01-02 结束: 2021-01-31 数据算法赛
第一名解决方案

第一名解决方案

作者: danzel | 排名: 第1名

首先,我想说我感到非常荣幸能获得冠军(这是我第一次在 Kaggle 上成为“焦点”人物 😏)!我真的很喜欢这个数据集——尽管它被标记为“没有什么挑战性”(但我认为它真的很有挑战性,很有趣,我也学到了很多东西)。

正如大家所猜测的那样,我的解决方案部分基于DAE 转换(去噪自编码器)的数据,我将其作为输入用于经过重度正则化的多层感知机(MLP)

基本上,我将训练数据和测试数据都输入到第一层的去噪自编码器中,并将其权重作为第二层神经网络的新数据集(见下图)。

模型架构图

DAE 的酷之处在于,如果操作得当,模型的权重将包含大量的特征信息(不再需要特征工程 🔥)。事实证明,DAE 能够捕捉到一些有助于第二阶段神经网络的信息。

此外,还有 LightGBM 模型(谁会想不到呢)。这两种变体(DAE 输入 MLP 和 LightGBM)在不同的设置下进行了训练,最后通过岭回归模型和简单的平均进行堆叠。我把大部分时间都花在了 DAE 的训练和验证上。我使用的 LightGBM 模型是基于稍作调整的 @kailex 参数 (💪)。

我最终获胜的提交结果是由多个 DAE-MLP 和一些 LightGBM 模型组成的岭回归堆叠集成:

  • 本地 10 折交叉验证 = 0.69289
  • 公开分数 = 0.69530
  • 私有分数 0.69381

我所有的神经网络通过平均堆叠后的分数:

  • 本地 10 折交叉验证 = 0.693773
  • 公开分数 = 0.69620
  • 私有分数 = 0.69472

如果你对 DAE 数据感兴趣,我创建了一个自定义数据集供测试。欢迎随意使用。我很想听听你的想法和发现!

干杯,
Daniel

同比赛其他方案