492. iWildCam 2022 - FGVC9 | iwildcam2022-fgvc9
祝贺获奖者,并感谢现任和往届的比赛主办方,感谢你们持续赞助这项重要且有趣的比赛。我承认,即使是这种简化后的仅包含动物计数的版本,对我来说仍然具有挑战性。山羊!怎么能有人数得清那些四处游荡、盯着镜头的山羊呢?我很想听听顶级团队——或者任何人——是如何解决这个计数问题的。
| 类别 ID | 俗名 |
|---|---|
| 2 | 白唇西貒 |
| 8 | 领西貒 |
| 70 | 野山羊 |
| 71 | 家牛 |
| 72 | 绵羊 |
| 90 | 非洲草原象 |
| 96 | 黑斑羚 |
| 256 | 单峰骆驼 |
我第一次了解 WBF 是在 Kaggle COTS 海星比赛中,当时许多团队用它来对检测结果进行后处理。我成功地用它合并了主办方提供的 MegaDetector 检测结果和我的 Yolov5 检测结果,这使我在公开/私有排行榜上获得了 0.275/0.265 的分数(高于基准:iWildCam 2021 获胜者)。我花了一些时间调整算法的超参数,但我不确定除了最初的成果外,它是否还提供了其他显著的好处。
我发现了大量轶事证据,表明帧间计数方法可以改进基准测试中标准的 最大值 方法,但一旦我扩展到整个数据集,我的解决方案就从未能提供任何收益。由于这种方法在视频中效果很好,我希望它也能适用于我们的一些序列。我过程的第一步是尝试估计兽群移动的整体方向,以便我可以从帧间匹配过程中排除许多候选对象。同样,这在许多情况下很容易做到,但总体上不可靠,导致在大多数情况下匹配较弱。我仍在调查具体发生了什么细节。
关于帧间匹配方法的更多细节:兽群序列由一个 9 类 Yolov5 检测器识别。对于任何有大量兽群检测结果的序列,使用以下方法进行检测级别的匹配。在 DeepMac 掩码质心的小图块上训练了一个自编码器。自编码器为每个检测结果生成了一个 512 元素的潜在特征向量。这些潜在特征(连同 X、Y、面积、时间差 Δ-T)用于序列内的检测到检测匹配。使用 DeepMac 分割掩码来选择输入自编码器的图块,显示出比使用整个检测结果(缩放后)或检测中心有所改进。据推测,这是由于消除了因遮挡和/或个体腿部之间的背景造成的非个体像素。
我在验证集中最大的计数错误通常涉及家牛。因此,我花了很多时间查看家牛的序列,并因为不能花更多时间在更奇异的动物上而感到有些沮丧。后来我在公共广播上听到一个故事,讲述奶牛在不同情况下可能造成的破坏有多大。这让我开始思考用于栖息地破坏监测的相机陷阱,突然间,数牛似乎变得重要多了。