1st Place Solution | 优胜方案

第一名解决方案

作者： Fagner Cunha (UFAM)

我们的最终解决方案分为两个部分：一个基于 EfficientNet-B2 [1] 模型集成的序列分类器，以及一个遵循竞赛基准提议的计数启发式算法。

分类器

参考往年的解决方案，我们训练了两个 EfficientNet-B2 模型：一个使用完整图像，第二个使用由 MegaDetectorV4 生成的边界框的方形裁剪区域。我们使用 Balanced Group Softmax [2] 来处理数据集中的类别不平衡问题。分配给每张图像的预测结果是分配给最高得分边界框的预测与完整图像预测的加权平均值（0.15 完整图像 + 0.15 完整图像（翻转）+ 0.35 边界框 + 0.35 边界框（翻转））。为了对一个序列进行分类，我们对该序列中所有非空图像的预测结果取平均值。

训练过程：在使用 Balanced Group Softmax 之前，我们使用标准的 softmax 训练分类器。我们使用 ImageNet 权重初始化 EfficientNet-B2，并使用默认输入分辨率（260x260）在 iWildCam2021 训练集上训练了 20 个 epoch。然后，我们使用更高的输入分辨率（380x380）对最后一层进行了 2 个 epoch 的微调，以修正训练/测试分辨率差异 [3]。具体对于边界框模型，我们在解冻所有层进行训练之前，先预训练了分类器层 4 个 epoch。在训练过程中，我们使用了标签平滑和带动量的 SGD。我们还对学习率应用了预热和余弦衰减。对于边界框模型，我们将所有置信度 > 0.6 的边界框视为独立的训练样本，并以最大边的尺寸对其进行方形裁剪。我们使用图像标签作为边界框标签。

图像预处理：在图像预处理方面，我们应用了随机裁剪、随机翻转和 RandAugment (N=6, M=2) [4]。在修正训练/测试分辨率阶段，我们使用了测试预处理，仅包括将图像/裁剪调整为网络输入大小（Keras EfficientNet 包含归一化层）。

处理类别不平衡：对于平衡组 softmax（bags），我们根据训练实例的数量 N 将类别分为 4 个 softmax 组：N < 10, 10 <= N < 100, 100 <= N < 1000, N >= 1000。我们还为前景/背景包含了一个特殊的 softmax。遵循原始 bags 论文，我们还在每个 softmax 中使用了“其他”类来代表该 softmax 中未包含的所有类别的实例。对于最终预测，我们将所有预测重新映射到原始 softmax，忽略“其他”类。正如原始论文中所述，预测结果并非真正的概率，因为它们之和不为 1，但我们将最高值视为 bags 预测。我们在预训练模型之上使用了 bags，移除了标准的 softmax，并保持所有权重冻结。首先，我们使用测试输入分辨率（380x380）的数据增强训练了 bags 分类器层 12 个 epoch。然后，我们使用测试时预处理进行了 2 个 epoch 的调整。在训练过程中，我们对“其他”类别的实例进行了子采样，通过在每个批次中最多采样该 softmax 中类别实例数量的 8 倍，以避免其主导 softmax。推理时使用 380x380 作为模型输入分辨率。

验证：为了验证模型，我们根据位置将训练集划分为训练/验证集。我们还使用验证集来调整超参数。对于最终提交，我们使用所有训练实例，利用调整好的超参数来训练模型。

最初，我们使用图像预测之间的投票来对序列进行分类，但在添加 bags 后，我们发现平均效果更好。

计数启发式算法：

我们遵循了竞赛基准计数启发式算法：序列中任何图像中边界框的最大数量。我们只计算 MegaDetectorV4 置信度 > 0.8 的边界框。

这种计数策略限制我们在每个序列中只能预测一个物种。我们将我们的解决方案视为计数相机陷阱序列中动物的有力基准，但我们确实认为最佳解决方案应基于跨图像跟踪动物（多目标跟踪），对每个轨迹进行分类并计数。我们尝试了 DeepSORT 来跟踪动物，但在计数方面不如这个启发式算法（我们在下面描述了这个过程）。

解决方案：

我们的代码、训练配置和模型公开在 https://github.com/alcunha/iwildcam2021ufam。

我们尝试过的其他方法

地理先验模型：我们尝试使用 GPS 坐标和一年中的时间（图像时间戳）来训练地理先验模型 [5]，但模型在 iWildCam 2021 训练集上过拟合了。我们尝试通过在 5km 半径内改变 GPS 坐标和在 10 天内改变时间戳来向数据添加一些噪声。我们还用 focal loss 替换了原始的地理先验模型损失。然而，仅使用分类器预测比将其与地理先验结合效果更好。我们相信 GPS 坐标对这个问题很有用（例如，它对我们的 iNat 2021 解决方案非常有效），但有必要开发一个模型来处理相机陷阱的特殊性，例如固定位置。我们的地理先验实现公开在

同比赛其他方案

2nd place solution

3rd Place Solution

4th Place Solution

7th Place Solution