返回列表

#1 solution

465. Tabular Playground Series - Nov 2021 | tabular-playground-series-nov-2021

开始: 2021-11-01 结束: 2021-11-30 内容安全 数据算法赛
#1 解决方案

#1 解决方案

作者:jayjay (MASTER) | 发布时间:2021-12-01

恭喜 @ambrosm@pourchot,感谢你们分享了一些后处理的想法。我太懒了,没有去研究数据块的问题,所以那部分主要依赖你们的 Kernel。

除此之外,我的解决方案基于以下步骤:

  • 训练一个简单的神经网络(NN),并在训练集上获得 OOF(Out-of-Fold)预测,得分约 LB 0.749。
  • 基于这些 OOF 预测,我重新标记了预测错误概率最高的前 5% 数据,并使用这个新训练集重新训练了一个简单的神经网络,得分约 LB 0.75010。
  • 基于这次提交的结果,我使用了 5% 的数据作为伪标签,再次重新训练了一个简单的神经网络,得分约 LB 0.75070。
  • 将此结果与 @ambrosm@pourchot 的 Kernel 进行融合,达到了我最终的 LB 分数。

唯一需要修改的是在融合预测时使用排名,因为 AUC 指标完全取决于排名。来自不同模型的提交概率处于不同的尺度,因此最好在融合前进行如下操作:

sub['target'] = sub['target'].rank(pct=True)
同比赛其他方案