484. Tabular Playground Series - Apr 2022 | tabular-playground-series-apr-2022
感谢 Kaggle 持续举办这些比赛,提供资源以及向其他 Kaggle 用户学习好主意的机会。我从大家在 Tabular 系列比赛中分享的内容中学到了很多。
该解决方案的主要思想(去噪自动编码器)都包含在前 3 场 Playground 比赛的以下讨论主题中。
以下内容也很相关(来自非 Playground 比赛):
我不打算重新描述这个概念,因为 @springmanndaniel 在上面提到的 1 月比赛的帖子及其链接的笔记本中提供了关于去噪自动编码器(DAE)概念的精彩笔记和可视化。如果你想要 Pytorch 中“噪声”代码的实际示例,可以查看 @ryanzhang 在 2 月比赛中的 Github 链接帖子,我也有一个将代码迁移到 3 月比赛的“入门”笔记本。
这里的数据有点不同,因为每个样本是具有多个传感器的序列,因此模型结构和噪声代码需要调整,但这与训练自动编码器以识别输入中何处添加了“交换噪声”(使用训练和测试数据)是相同的概念,以便模型学习输入数据中的关系。该模型各层的输出随后可用作特征,输入第二个神经网络以预测实际比赛目标。
由于这一切都在 Kaggle GPU 的时间配额内,探索自动编码器不同设置的时间有限。以下是一些对我似乎有效的方法,但根据具体的模型和训练设计等,其他人可能会发现不同且更好的结果。
最终的融合是各种模型和运行结果的组合,虽然使用 ElasticNet 获得模型权重进行最终预测,但许多输入被赋予 0 权重,主要贡献者是 DAE 运行、一些 TPU 运行和 LGBM 模型。