返回列表

25th summary | Happywhale ?... No, this is DATASET competition 😅😅😅

483. Happywhale - Whale and Dolphin Identification | happy-whale-and-dolphin

开始: 2022-02-01 结束: 2022-04-18 计算机视觉 数据算法赛
第25名方案总结 | Happywhale?不,这是数据集竞赛 😅😅😅

第25名方案总结 | Happywhale?不,这是数据集竞赛 😅😅😅

作者: KKY (Master) | 比赛排名: 22

背鳍裁剪、显著目标检测(SOD)掩码/裁剪、Detic裁剪……许多许多裁剪数据集主导了这场比赛。感谢 @jpbremer 发布了他们的背部和全身数据集,还有 [MFGA] 让特征工程再次伟大 🤔。我们仍然处于“手动”智能的时代。

关于单模型

  1. 多亏了背鳍裁剪数据集,我们首次突破了 0.76。
  2. 然后我们聚合了所有手动标注的全身数据集,训练了 yolov5 检测器。
  3. 有了新的全身裁剪数据集,我们训练了背鳍/全身/SOD模型,并将它们结合起来,首次突破 0.811。然后尝试更大的图像尺寸 512 -> 768 -> 1080……,更大的模型尺寸 convnext-small -> base,effn-b4 -> effn-b7,在 LB/CV 上获得了一些提升,以及一些模型的多样性;
  4. 多任务训练有效,同时在个体细粒度任务和物种分类任务上训练模型,给了我们 0.02 的提升。
  5. 伪标签很有效,当我们的集成模型达到 0.851 时,我们使用该提交预测(不含 new_individual)训练单模型,在 LB 上达到了 0.850。

两阶段集成策略

首先,我们使用折交叉训练的模型预测验证集,然后计算 #1 是 new_individual 的比率,以及 #1 模型预测在每张图像上是否相同(有无 new_individual)的比率。然后进行统计,按这两个比率分组并计算每组的真实标签比率;

应用统计规则,在测试集上,我们也计算全量训练数据中 #1 是 new_individual 的比率,以及 #1 模型预测在每张图像上是否相同的比率,然后利用统计数据来确定 new_individual 的位置。其他预测的集成权重分配与公共内核相同。

没时间尝试的

  1. 通过物种/其他相似图像/原始图像进行迁移学习……
  2. 多 CNN 分支模型 + 掩码层。我们有许多裁剪数据源……背鳍/SOD/全身,每个 CNN 分支输入一种,添加一些掩码层来组合 CNN 的输出……
  3. 图像嵌入集成
  4. 后排序模型
  5. TPU 的力量……

感谢分享,我们学到了很多。😄 下场比赛见。

同比赛其他方案