492. iWildCam 2022 - FGVC9 | iwildcam2022-fgvc9
我们的方法基于对 MegaDetector 检测结果的过滤。不涉及模型训练或跟踪算法。我们只是返回序列中所有图像中对象的最大数量作为我们的最终预测。
通过观察,如果我们将置信度阈值设为 0.95,我们发现会在高密度对象的图像中少算动物,而在低密度对象的图像中多算动物。因此,我们将所有图像分为低对象密度图像和高对象密度图像,然后分别使用不同的过滤方法来解决。阈值是一张图像中有 8 个预测。
为了统计更多的动物,我们将置信度阈值设为 0.0。为了去除重复项,我们应用了 NMS 方法并设置 IoU=0.2。我们还做了一些小修改来抑制较小的框。我无法上传图片,但通过观察,过滤效果非常好。借助我们的 NMS 方法,公开分数可以提高到 0.253。
如果不考虑置信度分数,我们假设,如果将置信度阈值设为 0,有许多边界框重叠的区域比没有边界框重叠的区域具有更高的真阳性(TP)概率。经过几次微调,我们发现对于没有重叠的框使用 0.98(置信度阈值),对于有重叠的框使用 0.8,可以获得最好的公开分数。公开分数现在可以提高到 0.249。我们还对第一轮过滤后剩下 1 或 2 个对象的图像进行了第二轮过滤。置信度阈值为 0.98,现在我们得到了最好的结果 0.247。
我们没有尝试任何训练方法,因为没有提供基本真值,如果我们使用检测器的结果作为训练数据,如果不手动过滤掉 MegaDetector 的假阳性(FP)预测,就会发生错误传播,新模型无法胜过 MegaDetector。我们在截止日期前 1 周参加这次比赛,所以没有足够的时间专注于跟踪算法。如果时间允许,我们将继续研究并专注于图像序列中的对象跟踪。