LB #2 Documentation

LB #2 文档

作者：Jon Daly | 发布时间：2020-06-12

很抱歉提交文档晚了，感谢比赛的组织者——这非常有趣。

在尝试了许多不同的方法后，我的最高分解决方案大致如下：

移除了嘈杂和/或“人类”类别标签——包括“开始”、“结束”、“未知” 和“无法识别”。保留“空”类似乎对于减少背景激活以实现更好的泛化很重要。
纳入了 iNat 2017/2018 数据中的共享类别。
在所有图像上运行 MegaDetector v4。
仅选取置信度 >0.3 的动物检测裁剪区域，并丢弃太小的检测结果。同时，如果同一图像中的裁剪区域置信度远低于最高值，也会被丢弃。
确保将裁剪区域的高度扩展到 224 像素，即使边界框较小，然后使用反射填充将裁剪区域变为正方形，并调整为 224x224 分辨率。
应用了各种数据增强，包括 CLAHE、色调偏移、高斯噪声、Cutout、缩放/旋转/平移、亮度/对比度调整和灰度化。
创建了一个包含图像元数据的自定义分类器头。它使用了年中时间和日时间的正弦/余弦表示，以及关于裁剪区域的信息（宽度、高度、俯仰角、偏航角）。
使用单个 EfficientNetB4 模型训练了 7 个 epoch，该模型预加载了 imagenet noisystudent 权重，使用了标签平滑的交叉熵 focal loss。训练耗时 2 小时。
使用 TTA（测试时增强），应用除噪声外的所有训练增强来获取预测结果。
合并图像内每个裁剪区域的预测结果，以获得图像的总平均值。
按时间和位置聚类的图像平均这些预测结果，作为最终提交。这样做是因为序列 ID 标签似乎不可靠。
取得了 0.930 的公开分数，0.903 的私有 LB 分数。用这种方法得到的最高提交分数（我没选的）是 0.903 私有分。

这是我第一次真正接触计算机视觉，不幸的是，由于我的动作较慢，我没时间尝试很多我想做的事情 :）。我想尝试：

在不同输入分辨率下集成不同的 EfficientNet。
使用位置多卫星数据创建地理先验，以此增强预测。我最初在单个分类器模型中直接使用此数据，但它太容易过拟合了。
创建更逼真的红外数据增强，而不是依赖灰度。
使用连体网络来区分最容易混淆的物种。
通过先验或单独的分类器重新引入“车辆”/“人类”的 megadetector 裁剪区域。

LB #2 文档

同比赛其他方案