返回列表

LB #8 Documentation

380. iWildCam 2020 - FGVC7 | iwildcam-2020-fgvc7

开始: 2020-03-09 结束: 2020-05-26 农业遥感 数据算法赛
LB #8 文档

LB #8 文档

作者: Justin Kay | 排名: 8 | 发布时间: 2020-05-27

大家好!感谢组织者组织了这么有趣的比赛并提供了非常有趣的数据集。这是我们的提交方案(排名 #8 或 #10,取决于你是否计算[已删除]的条目)以及我们尝试过/想要尝试的其他一些事情。

我们的提交方案是一个相当简单的集成模型,由一个 ResNet 152 和一个 ResNet 101 组成。

我们使用所有提供的 Megadetector 标注创建了一个带有物种标签的裁剪图像数据集。然后我们将数据分为训练集和验证集(仅 2 折),确保验证集来自不同的地点,并保持类别分布大致相同。我们使用了这些数据集的“迷你”版本(约 5-10% 的图像)作为迷你训练集和迷你验证集,用于进行超参数调整。

ResNet 模型在 ImageNet 上进行了预训练,并在相机陷阱裁剪图像上进行了微调,使用了相当重的数据增强(随机翻转、随机旋转、随机缩放、随机对比度和光照修改、随机扭曲和 mixup)。这两个模型还在一个类别平衡的裁剪子集上进行了几个 epoch 的进一步微调,该子集每个类别包含不超过 100 个样本。

在每张图像中,每个 Megadetector 检测结果都被裁剪出来,通过分类器,然后由 Megadetector 的检测置信度进行加权。我们使用一个简单的“衰减因子” d 来调整权重:(detector_confidence + d) / (d + 1) * crop_prediction。

(这是有趣但没产生什么结果的部分)

然后我们将每张图像的预测向量乘以一组“地理先验”,其构建方式类似于主办方 Elijah 的论文《Presence-Only Geographical Priors for Fine-Grained Image Classification》。由于我们没有经纬度信息,我们使用日期时间(按照论文中的方法编码为 sin/cos)和每张卫星图像的平均归一化植被指数(基本上是红外线减去红光)来构建地理先验模型。我们也为这些先验使用了“衰减因子”,但在验证集上只看到了约 1% 的增长,在测试集上增长了 0.2%。但我们觉得这很有趣,并且很兴奋看到其他人在卫星图像上尝试了什么。

除了平均 NDVI,我们还尝试了几种效果不佳的方法。首先,我们尝试仅使用每张卫星图像的 ResNet 提取特征作为模型的特征(替换论文模型中的经纬度)——但是,由于数据是“仅存在”的,模型依赖于生成的负样本,而我们无法为图像特征合理地生成负样本。我们尝试从数据集中随机选择卫星图像作为“负样本”,但数据点数量有限,似乎不起作用。而且随机生成一个长度为 2048 的特征向量作为负样本似乎很愚蠢,因为卫星图像似乎不太可能生成那些特征。

然后我们尝试了平均 NDVI 的方法。很酷。作为旁注,我们使用 QA 数据消除了卫星图像中所有的云、阴影和 0 值像素,所以我们计算的 NDVI 仅针对可见土地。

然后我们尝试使其更复杂。不使用平均 NDVI(每张图像一个值),我们对每张卫星图像上的像素级 NDVI 值的正态分布进行建模,为每张图像创建这些值的累积分布函数 (CDF),并从 CDF 中采样 100 个点作为特征。这使我们能够通过生成均值为 -1 到 1 之间(NDVI 可以取的值)的随机正态分布来生成更复杂的负样本。这似乎有帮助,因为地理先验模型的验证损失下降了……但当我们实际将其用于分类的先验时,我们的分数反而下降了。

无论如何,这并没有真正起到多大作用,但我认为这很酷。如果有人对此有任何想法,很乐意进一步讨论(或者也许主办方可以告诉我为什么我的想法很糟糕 :P)

(回到无聊的部分)

然后我们对每个序列的图像级预测向量执行移动平均。因此,每张图像的预测成为与其最接近的图像的平均值。我们调整了这个窗口大小。

然后我们尝试了序列内的“带有异议者”的多数投票(这可能有个正式名称)。这只是对每个序列最终类别的多数投票,但如果一张图像具有高于我们“异议阈值”的置信度的不同分类,我们让它保留其预测。这旨在帮助那些大部分为空只有几帧有内容的序列。我们也调整了这个阈值以及非空图像的“让步”,这样只有当“空”的票数至少比第二名类别多出“让步”票时,多数投票才能判定为“空”。

我们想尝试的

Sara 的论文!《Context R-CNN: Long Term Temporal Context for Per-Camera Object Detection》。我们实际上实施了它的一个修改版,仅在分类期间使用记忆库和注意力网络(仍使用 Megadetector 进行检测)。不幸的是,我们参赛较晚,没有时间训练它……但我们将作为“延迟提交”尝试一下 :)

好了,这就是长篇大论。如果你读完了,希望这要么很有趣,要么你是一年后读到这篇文章,作为 iWildcam 2021 的起点。嘿。

再见,感谢所有的眼斑火鸡……

同比赛其他方案