14th place solution

第14名解决方案

作者：Naoki Kato
比赛排名：第14名

感谢主办方举办这场有趣的比赛，并祝贺所有获奖者。比赛很艰难，但对我来说是一次很棒的经历。

数据集

分别训练了三个Yolov5模型来检测全身和背鳍。
通过改变数据集，分数有了很大提高：原始图像 -> Detic裁剪 -> 全身裁剪 -> 全身/背鳍裁剪。

ArcFace模型分别使用全身裁剪（640×640）和背鳍裁剪（448×448）进行训练。ArcFace的参数设置为scale = 25，margin = 0.5（在我的情况下，改进的数据集配合大margin效果很好）。嵌入大小为2048。
还使用了用于物种分类的Focal loss（损失权重 = 0.1）。
骨干网络：Efficientnet-b7 和 ConvNeXt-L
为了使嵌入更具判别力，将特征图乘以以GAP特征作为查询计算出的注意力权重。这仅在Efficientnet上有效。
伪标签：取大约30%的顶部预测（使用更多数据和多次迭代可能会更好）。
蒸馏：使用教师模型的特征作为软目标并计算MSE。这在训练早期极大地提高了性能，但对最终分数的贡献似乎没有那么大，因此采用余弦调度将最终权重设置为0。

使用了平均模糊、运动模糊、高斯噪声、饱和度、亮度、对比度、灰度以及仿射变换（翻转、旋转、剪切、缩放和平移）。

以下方法在我的情况下没有奏效：

感谢阅读。