9th place solution

第9名解决方案

作者：Charlie Turner (MASTER)
比赛排名：第9名

祝贺获奖者，并感谢现任和往届的比赛主办方，感谢你们持续赞助这项重要且有趣的比赛。我承认，即使是这种简化后的仅包含动物计数的版本，对我来说仍然具有挑战性。山羊！怎么能有人数得清那些四处游荡、盯着镜头的山羊呢？我很想听听顶级团队——或者任何人——是如何解决这个计数问题的。

我的方法概述

使用 MegaDetector v4 的检测结果来训练基于 Yolov5 的第二个动物检测器。
使用 加权框融合 WBF 合并 MegaDetector 和 Yolov5 的检测结果。
应用一种自定义的帧间目标跟踪算法，专注于兽群/群体中的个体。

我关注的兽群/群居物种：

类别 ID	俗名
2	白唇西貒
8	领西貒
70	野山羊
71	家牛
72	绵羊
90	非洲草原象
96	黑斑羚
256	单峰骆驼

观察心得

我第一次了解 WBF 是在 Kaggle COTS 海星比赛中，当时许多团队用它来对检测结果进行后处理。我成功地用它合并了主办方提供的 MegaDetector 检测结果和我的 Yolov5 检测结果，这使我在公开/私有排行榜上获得了 0.275/0.265 的分数（高于基准：iWildCam 2021 获胜者）。我花了一些时间调整算法的超参数，但我不确定除了最初的成果外，它是否还提供了其他显著的好处。
我发现了大量轶事证据，表明帧间计数方法可以改进基准测试中标准的 最大值 方法，但一旦我扩展到整个数据集，我的解决方案就从未能提供任何收益。由于这种方法在视频中效果很好，我希望它也能适用于我们的一些序列。我过程的第一步是尝试估计兽群移动的整体方向，以便我可以从帧间匹配过程中排除许多候选对象。同样，这在许多情况下很容易做到，但总体上不可靠，导致在大多数情况下匹配较弱。我仍在调查具体发生了什么细节。
关于帧间匹配方法的更多细节：兽群序列由一个 9 类 Yolov5 检测器识别。对于任何有大量兽群检测结果的序列，使用以下方法进行检测级别的匹配。在 DeepMac 掩码质心的小图块上训练了一个自编码器。自编码器为每个检测结果生成了一个 512 元素的潜在特征向量。这些潜在特征（连同 X、Y、面积、时间差 Δ-T）用于序列内的检测到检测匹配。使用 DeepMac 分割掩码来选择输入自编码器的图块，显示出比使用整个检测结果（缩放后）或检测中心有所改进。据推测，这是由于消除了因遮挡和/或个体腿部之间的背景造成的非个体像素。
我在验证集中最大的计数错误通常涉及家牛。因此，我花了很多时间查看家牛的序列，并因为不能花更多时间在更奇异的动物上而感到有些沮丧。后来我在公共广播上听到一个故事，讲述奶牛在不同情况下可能造成的破坏有多大。这让我开始思考用于栖息地破坏监测的相机陷阱，突然间，数牛似乎变得重要多了。

第9名解决方案

我的方法概述

我关注的兽群/群居物种：

观察心得

同比赛其他方案