返回列表

s3 class postprocessing (+0.008 on private LB)

419. Rainforest Connection Species Audio Detection | rfcx-species-audio-detection

开始: 2020-11-17 结束: 2021-02-17 环境监测 数据算法赛
s3 类别后处理(Private LB 提升 +0.008)

s3 类别后处理(Private LB 提升 +0.008)

作者:Random_prediction (Grandmaster)
发布时间:2021-02-18

正如其他人所提到的,s3 是一个非常有趣的类别。在对此进行深入研究后,我们的团队发现我们应该放大(scale up)对 s3 类别的预测。我们尝试了多种方法来实现这一点,但最终发现简单的 1.5 倍缩放效果最好(我们的预测值都是正数,如果您的预测值是 logits,这种缩放可能不起作用)。

这种缩放将我们最终集成模型的得分从 Private LB 上的 0.933 提升到了 0.941(+0.008)。

为了说服自己这不是 Public LB 上的一个小巧合(因为它在 Public LB 上同样有帮助),我们的直觉如下:

  • 每个类别大致都有相似数量的 TP(真阳性)标签。
  • 但是您可以在 OOF(袋外)训练预测和测试预测中看到,类别是非常不平衡的(比如查看不同类别成为 top1 或 top3 预测的频率)。而 s3 类别实际上显然是最普遍存在的。
  • 由于本次比赛特定的标签规则,我们处于这样一种情况:s3 是一个非常常见的类别,因此经常出现在其他标签旁边,而模型得到的 s3 类别的目标值为 0(如果您没有做任何修正,比如损失掩码 Loss Masking)。
  • 因此模型学会了在预测 s3 时格外谨慎,而实际上它应该相当积极地进行预测。

因此,我们在这里应用了后处理。
我们无法在其他类别上利用这一点,但 s3 对我们来说确实是一个明显的异常值。

同比赛其他方案