426. Tabular Playground Series - Mar 2021 | tabular-playground-series-mar-2021
我们又见面了 😄 …
起初我只是想测试一些想法,所以我结合了 @ryanzhang 和我在之前比赛中的获胜方案的最佳部分 + 为分类变量添加了嵌入输入。

我的主要想法是在表示学习阶段将学习到的嵌入表示同时用于数据 和目标。因为我不喜欢噪声 + 独热编码 结合在一起的方式。

所以我将噪声添加到标签编码的分类变量中,通过嵌入层传递它们,并即时重建目标/干净部分。

噪声数据被用作输入,嵌入正在被训练,ytrain 被创建,就这样。我也将这个想法应用到了 masking 部分。

初始/默认 mask 必须进行调整以匹配嵌入表示。
我没有做太多的调优/训练。
因为效果很好,我还训练了一个 lightgbm 模型,并通过 xgblinear 将 lgbm + 三次 dae 运行的结果进行了堆叠。
1x lgbm = 0.89743 (cv) | 0.89304 (public lb) | 0.89769 (private lb)
3x dae mlp = 0.90042 (cv) | 0.89560 (public lb) | 0.90012(private lb)
* 并没有上传每一次 dae - mlp 的运行结果,所以这里只有一个分数。
最终 xgblinear 堆叠模型 = 0.9008564 (cv) | 0.89599 (public lb) | 0.90053 (private lb)