s3 class postprocessing (+0.008 on private LB)

s3 类别后处理（Private LB 提升 +0.008）

作者：Random_prediction (Grandmaster)
发布时间：2021-02-18

正如其他人所提到的，s3 是一个非常有趣的类别。在对此进行深入研究后，我们的团队发现我们应该放大（scale up）对 s3 类别的预测。我们尝试了多种方法来实现这一点，但最终发现简单的 1.5 倍缩放效果最好（我们的预测值都是正数，如果您的预测值是 logits，这种缩放可能不起作用）。

这种缩放将我们最终集成模型的得分从 Private LB 上的 0.933 提升到了 0.941（+0.008）。

为了说服自己这不是 Public LB 上的一个小巧合（因为它在 Public LB 上同样有帮助），我们的直觉如下：

每个类别大致都有相似数量的 TP（真阳性）标签。
但是您可以在 OOF（袋外）训练预测和测试预测中看到，类别是非常不平衡的（比如查看不同类别成为 top1 或 top3 预测的频率）。而 s3 类别实际上显然是最普遍存在的。
由于本次比赛特定的标签规则，我们处于这样一种情况：s3 是一个非常常见的类别，因此经常出现在其他标签旁边，而模型得到的 s3 类别的目标值为 0（如果您没有做任何修正，比如损失掩码 Loss Masking）。
因此模型学会了在预测 s3 时格外谨慎，而实际上它应该相当积极地进行预测。

因此，我们在这里应用了后处理。
我们无法在其他类别上利用这一点，但 s3 对我们来说确实是一个明显的异常值。

s3 类别后处理（Private LB 提升 +0.008）