LB #2 文档
LB #2 文档
作者:Jon Daly | 发布时间:2020-06-12
很抱歉提交文档晚了,感谢比赛的组织者——这非常有趣。
在尝试了许多不同的方法后,我的最高分解决方案大致如下:
- 移除了嘈杂和/或“人类”类别标签——包括“开始”、“结束”、“未知” 和“无法识别”。保留“空”类似乎对于减少背景激活以实现更好的泛化很重要。
- 纳入了 iNat 2017/2018 数据中的共享类别。
- 在所有图像上运行 MegaDetector v4。
- 仅选取置信度 >0.3 的动物检测裁剪区域,并丢弃太小的检测结果。同时,如果同一图像中的裁剪区域置信度远低于最高值,也会被丢弃。
- 确保将裁剪区域的高度扩展到 224 像素,即使边界框较小,然后使用反射填充将裁剪区域变为正方形,并调整为 224x224 分辨率。
- 应用了各种数据增强,包括 CLAHE、色调偏移、高斯噪声、Cutout、缩放/旋转/平移、亮度/对比度调整和灰度化。
- 创建了一个包含图像元数据的自定义分类器头。它使用了年中时间和日时间的正弦/余弦表示,以及关于裁剪区域的信息(宽度、高度、俯仰角、偏航角)。
- 使用单个 EfficientNetB4 模型训练了 7 个 epoch,该模型预加载了 imagenet noisystudent 权重,使用了标签平滑的交叉熵 focal loss。训练耗时 2 小时。
- 使用 TTA(测试时增强),应用除噪声外的所有训练增强来获取预测结果。
- 合并图像内每个裁剪区域的预测结果,以获得图像的总平均值。
- 按时间和位置聚类的图像平均这些预测结果,作为最终提交。这样做是因为序列 ID 标签似乎不可靠。
- 取得了 0.930 的公开分数,0.903 的私有 LB 分数。用这种方法得到的最高提交分数(我没选的)是 0.903 私有分。
这是我第一次真正接触计算机视觉,不幸的是,由于我的动作较慢,我没时间尝试很多我想做的事情 :)。我想尝试:
- 在不同输入分辨率下集成不同的 EfficientNet。
- 使用位置多卫星数据创建地理先验,以此增强预测。我最初在单个分类器模型中直接使用此数据,但它太容易过拟合了。
- 创建更逼真的红外数据增强,而不是依赖灰度。
- 使用连体网络来区分最容易混淆的物种。
- 通过先验或单独的分类器重新引入“车辆”/“人类”的 megadetector 裁剪区域。