6th place solution

第6名解决方案

作者：YujiAriyasu (Grandmaster)
比赛排名：第6名

恭喜所有的获奖者。
感谢 Kaggle 和主办方团队带来了一场有趣的比赛。
我很期待第三届比赛：）

以下是我的解决方案总结。

数据集

我使用了 Jan 创建的全身和背鳍数据。我还使用了基于 Jan 的标注训练检测器的结果。对于每个全身/背鳍，有两个不同的边界框。
我还使用了边界框稍大的数据。因此，相当多样化的数据集被用作集成的素材。完整的原始图像也被用作集成的素材。
图像尺寸：512 ~ 896。

因为我开始使用 TensorFlow 的时间较晚，时间紧迫，所以我采取了使用所有训练集进行训练并在 LB（排行榜）上检查分数的方法。
在没有 OOF（Out-of-Fold）的情况下进行开发相当困难，但这次我认为这不会是问题，因为抖动似乎相当小。

所有模型都连接了 DOLG 和 ArcFace。
无论是否使用动态边界，准确率都差不多。两种情况都使用了。

因为我是在四月份才开始使用 TensorFlow 的，所以我最终直接使用了公开 Notebook 中的数据增强和超参数设置。

所有模型都连接了 ArcFace（没有使用 DOLG，也没有使用动态边界）。

我使用了较重的数据增强。

我比较了训练集和测试集之间拼接特征图的相似度。
最终特征图的维度超过了 20,000。
使用不同的阈值来确定每个物种的新个体 ID。
没有后处理。

通过使用伪标签，我不仅可以看到训练集的相似度，还可以看到高置信度测试集的相似度。这就是伪标签在本次比赛中如此重要的原因。因此，通过多次重复伪标签，我能够一点一点地提高分数。

因为这是一场“动物比赛”，在猫咪咖啡馆工作大大提高了我的分数。