25th summary | Happywhale ?... No, this is DATASET competition 😅😅😅

483. Happywhale - Whale and Dolphin Identification | happy-whale-and-dolphin

开始: 2022-02-01 结束: 2022-04-18 计算机视觉数据算法赛

第25名方案总结 | Happywhale？不，这是数据集竞赛 😅😅😅

第25名方案总结 | Happywhale？不，这是数据集竞赛 😅😅😅

作者： KKY (Master) | 比赛排名： 22

背鳍裁剪、显著目标检测(SOD)掩码/裁剪、Detic裁剪……许多许多裁剪数据集主导了这场比赛。感谢 @jpbremer 发布了他们的背部和全身数据集，还有 [MFGA] 让特征工程再次伟大 🤔。我们仍然处于“手动”智能的时代。

关于单模型

多亏了背鳍裁剪数据集，我们首次突破了 0.76。
然后我们聚合了所有手动标注的全身数据集，训练了 yolov5 检测器。
有了新的全身裁剪数据集，我们训练了背鳍/全身/SOD模型，并将它们结合起来，首次突破 0.811。然后尝试更大的图像尺寸 512 -> 768 -> 1080……，更大的模型尺寸 convnext-small -> base，effn-b4 -> effn-b7，在 LB/CV 上获得了一些提升，以及一些模型的多样性；
多任务训练有效，同时在个体细粒度任务和物种分类任务上训练模型，给了我们 0.02 的提升。
伪标签很有效，当我们的集成模型达到 0.851 时，我们使用该提交预测（不含 new_individual）训练单模型，在 LB 上达到了 0.850。

两阶段集成策略

首先，我们使用折交叉训练的模型预测验证集，然后计算 #1 是 new_individual 的比率，以及 #1 模型预测在每张图像上是否相同（有无 new_individual）的比率。然后进行统计，按这两个比率分组并计算每组的真实标签比率；

应用统计规则，在测试集上，我们也计算全量训练数据中 #1 是 new_individual 的比率，以及 #1 模型预测在每张图像上是否相同的比率，然后利用统计数据来确定 new_individual 的位置。其他预测的集成权重分配与公共内核相同。

没时间尝试的

通过物种/其他相似图像/原始图像进行迁移学习……
多 CNN 分支模型 + 掩码层。我们有许多裁剪数据源……背鳍/SOD/全身，每个 CNN 分支输入一种，添加一些掩码层来组合 CNN 的输出……
图像嵌入集成
后排序模型
TPU 的力量……

感谢分享，我们学到了很多。😄 下场比赛见。

同比赛其他方案

1st Place Solution

2nd place solution

3rd solution【Part】

4th place solution

6th place solution