返回列表

1st place solution - (maybe) swap noise

431. Tabular Playground Series - Apr 2021 | tabular-playground-series-apr-2021

开始: 2021-04-01 结束: 2021-04-30 数据算法赛
第一名方案 - (也许) Swap Noise

第一名方案 - (也许) Swap Noise

作者: JiangTT | 发布时间: 2021-05-01

结果真的让我很惊讶!我想我是运气好,刚好防止了过拟合。我正在分享我的一个提交 Notebook,但它可能不会产生相同的结果,因为我是在本地机器上运行最佳提交的,并且我将其与 @hiro5299834 的 DAE 结果以及 @alexryzhkov 的 AutoWoe 结果进行了融合(记得将 DEBUG 改为 False)。这个版本在 Private LB 上应该能得 0.81325 分并获得第三名。

其实我仍然不确定我的想法是否有效,或者我只是幸运地融合了正确的结果,因为我不记得我是否在最佳提交中开启了 swap noise。但我还是把它分享出来了。也许你们能从中发现一些运气。

在过去的 3 次 TPS 比赛中,我从 @springmanndaniel 那里学到,swap noise 是 DAE 的关键。在 TPS 三月赛之后,我产生了一个想法,将 swap noise 应用到 GBDT 训练中以防止过拟合,因为我认为 swap noise 是在表格数据中应用数据增强的好方法。不幸的是,似乎没有人对我的讨论帖感兴趣,所以我决定自己尝试一下。我修改了 @ryanzhang 的 swap noise 函数,并将其用于 @hiro5299834精彩作品中。因为我不知道如何在训练的每个 epoch 中应用不同的噪声,所以我简单地训练了许多模型(lgbm、catboost 和 dt 各 30 个),每个模型带有不同的噪声,然后将它们混合。

我认为数据增强在 GBDT 训练中会很有用。如果有人对关于这个想法的进一步研究感兴趣,请告诉我!

在训练过程中,我从 AutoML 框架中学到了很多。特别感谢 @alexryzhkov 提供的 LightAutoML,以及 @mt77pp 提供的 MLJAR,两者都是非常棒的 AutoML 工具!