#1 solution

465. Tabular Playground Series - Nov 2021 | tabular-playground-series-nov-2021

开始: 2021-11-01 结束: 2021-11-30 内容安全数据算法赛

#1 解决方案

#1 解决方案

作者：jayjay (MASTER) | 发布时间：2021-12-01

恭喜 @ambrosm 和 @pourchot，感谢你们分享了一些后处理的想法。我太懒了，没有去研究数据块的问题，所以那部分主要依赖你们的 Kernel。

除此之外，我的解决方案基于以下步骤：

训练一个简单的神经网络（NN），并在训练集上获得 OOF（Out-of-Fold）预测，得分约 LB 0.749。
基于这些 OOF 预测，我重新标记了预测错误概率最高的前 5% 数据，并使用这个新训练集重新训练了一个简单的神经网络，得分约 LB 0.75010。
基于这次提交的结果，我使用了 5% 的数据作为伪标签，再次重新训练了一个简单的神经网络，得分约 LB 0.75070。
将此结果与 @ambrosm 和 @pourchot 的 Kernel 进行融合，达到了我最终的 LB 分数。

唯一需要修改的是在融合预测时使用排名，因为 AUC 指标完全取决于排名。来自不同模型的提交概率处于不同的尺度，因此最好在融合前进行如下操作：

sub['target'] = sub['target'].rank(pct=True)

同比赛其他方案

#3 Solution: Don't trust the cv scores

#5 solution (and +141 from Public Leaderboard)