LB #1 Solution

LB #1 解决方案

作者： Tennant (Megvii Research Nanjing)
发布时间： 2020-06-14

很抱歉我们的解决方案发布延迟了。感谢其他团队分享了他们的解决方案，也感谢主办方举办了这次比赛。

我们希望与参赛者以及细粒度识别社区分享我们的解决方案。

总的来说，我们使用 Efficientnet-b6 和 SeResNeXt101 作为骨干网络，采用了几种训练方法和技巧来帮助模型学习跨摄像头位置的可泛化特征表示。值得注意的是，我们的方法在公开榜单上获得了 0.953 分，在私有榜单上获得了 0.906 分，而我们未选用的最高提交分数在公开和私有榜单上分别为 0.953 和 0.917。详细内容如下：

针对长尾数据分布的 Mixup 策略，该策略利用了两个数据采样器：一个是均匀采样器，以均匀概率对每张图像进行采样；另一个是反向采样器，以与相应类别样本大小成反比的概率对每张图像进行采样。来自这两个数据采样器的图像随后被混合，以获得更好的性能。
我们在网络中添加了一个针对不同位置的辅助分类器。在位置分类之前，特征会经过一个梯度反转层，以确保模型能够学习跨位置的可泛化特征。
利用对抗训练来学习具有噪声鲁棒性的表示。
我们在所有图像上运行了 MegaDetector V4。
将每张图像中置信度最高的边界框裁剪出来，用于训练边界框模型。
我们针对每个模型训练了两个版本，一个使用原始完整图像，另一个使用裁剪后的最大置信度边界框。
在测试期间，对于至少有一个边界框的图像，预测结果是边界框模型和完整图像模型的加权平均值（0.3 完整图像 + 0.7 边界框）；对于没有边界框的图像，我们使用完整图像模型。
我们首先使用上述过程获得 Efficientnet-b6 和 SeResNeXt101 的预测结果，然后最终预测是这两个网络架构预测结果的简单平均。
我们将按位置和日期时间聚类的预测结果进行了平均，因为序列标注似乎存在噪声。

LB #1 解决方案

同比赛其他方案