返回列表

9th place solution

492. iWildCam 2022 - FGVC9 | iwildcam2022-fgvc9

开始: 2022-03-21 结束: 2022-05-30 计算机视觉 数据算法赛
第9名解决方案

第9名解决方案

作者:Charlie Turner (MASTER)
比赛排名:第9名

祝贺获奖者,并感谢现任和往届的比赛主办方,感谢你们持续赞助这项重要且有趣的比赛。我承认,即使是这种简化后的仅包含动物计数的版本,对我来说仍然具有挑战性。山羊!怎么能有人数得清那些四处游荡、盯着镜头的山羊呢?我很想听听顶级团队——或者任何人——是如何解决这个计数问题的。

我的方法概述

  • 使用 MegaDetector v4 的检测结果来训练基于 Yolov5 的第二个动物检测器。
  • 使用 加权框融合 WBF 合并 MegaDetector 和 Yolov5 的检测结果。
  • 应用一种自定义的帧间目标跟踪算法,专注于兽群/群体中的个体。

我关注的兽群/群居物种:

类别 ID 俗名
2 白唇西貒
8 领西貒
70 野山羊
71 家牛
72 绵羊
90 非洲草原象
96 黑斑羚
256 单峰骆驼

观察心得

  • 我第一次了解 WBF 是在 Kaggle COTS 海星比赛中,当时许多团队用它来对检测结果进行后处理。我成功地用它合并了主办方提供的 MegaDetector 检测结果和我的 Yolov5 检测结果,这使我在公开/私有排行榜上获得了 0.275/0.265 的分数(高于基准:iWildCam 2021 获胜者)。我花了一些时间调整算法的超参数,但我不确定除了最初的成果外,它是否还提供了其他显著的好处。

  • 我发现了大量轶事证据,表明帧间计数方法可以改进基准测试中标准的 最大值 方法,但一旦我扩展到整个数据集,我的解决方案就从未能提供任何收益。由于这种方法在视频中效果很好,我希望它也能适用于我们的一些序列。我过程的第一步是尝试估计兽群移动的整体方向,以便我可以从帧间匹配过程中排除许多候选对象。同样,这在许多情况下很容易做到,但总体上不可靠,导致在大多数情况下匹配较弱。我仍在调查具体发生了什么细节。

  • 关于帧间匹配方法的更多细节:兽群序列由一个 9 类 Yolov5 检测器识别。对于任何有大量兽群检测结果的序列,使用以下方法进行检测级别的匹配。在 DeepMac 掩码质心的小图块上训练了一个自编码器。自编码器为每个检测结果生成了一个 512 元素的潜在特征向量。这些潜在特征(连同 X、Y、面积、时间差 Δ-T)用于序列内的检测到检测匹配。使用 DeepMac 分割掩码来选择输入自编码器的图块,显示出比使用整个检测结果(缩放后)或检测中心有所改进。据推测,这是由于消除了因遮挡和/或个体腿部之间的背景造成的非个体像素。

  • 我在验证集中最大的计数错误通常涉及家牛。因此,我花了很多时间查看家牛的序列,并因为不能花更多时间在更奇异的动物上而感到有些沮丧。后来我在公共广播上听到一个故事,讲述奶牛在不同情况下可能造成的破坏有多大。这让我开始思考用于栖息地破坏监测的相机陷阱,突然间,数牛似乎变得重要多了。

同比赛其他方案