第25名方案总结 | Happywhale?不,这是数据集竞赛 😅😅😅
第25名方案总结 | Happywhale?不,这是数据集竞赛 😅😅😅
作者: KKY (Master) | 比赛排名: 22
背鳍裁剪、显著目标检测(SOD)掩码/裁剪、Detic裁剪……许多许多裁剪数据集主导了这场比赛。感谢 @jpbremer 发布了他们的背部和全身数据集,还有 [MFGA] 让特征工程再次伟大 🤔。我们仍然处于“手动”智能的时代。
关于单模型
- 多亏了背鳍裁剪数据集,我们首次突破了 0.76。
- 然后我们聚合了所有手动标注的全身数据集,训练了 yolov5 检测器。
- 有了新的全身裁剪数据集,我们训练了背鳍/全身/SOD模型,并将它们结合起来,首次突破 0.811。然后尝试更大的图像尺寸 512 -> 768 -> 1080……,更大的模型尺寸 convnext-small -> base,effn-b4 -> effn-b7,在 LB/CV 上获得了一些提升,以及一些模型的多样性;
- 多任务训练有效,同时在个体细粒度任务和物种分类任务上训练模型,给了我们 0.02 的提升。
- 伪标签很有效,当我们的集成模型达到 0.851 时,我们使用该提交预测(不含 new_individual)训练单模型,在 LB 上达到了 0.850。
两阶段集成策略
首先,我们使用折交叉训练的模型预测验证集,然后计算 #1 是 new_individual 的比率,以及 #1 模型预测在每张图像上是否相同(有无 new_individual)的比率。然后进行统计,按这两个比率分组并计算每组的真实标签比率;
应用统计规则,在测试集上,我们也计算全量训练数据中 #1 是 new_individual 的比率,以及 #1 模型预测在每张图像上是否相同的比率,然后利用统计数据来确定 new_individual 的位置。其他预测的集成权重分配与公共内核相同。
没时间尝试的
- 通过物种/其他相似图像/原始图像进行迁移学习……
- 多 CNN 分支模型 + 掩码层。我们有许多裁剪数据源……背鳍/SOD/全身,每个 CNN 分支输入一种,添加一些掩码层来组合 CNN 的输出……
- 图像嵌入集成
- 后排序模型
- TPU 的力量……
感谢分享,我们学到了很多。😄 下场比赛见。