379. Herbarium 2020 - FGVC7 | herbarium-2020-fgvc7
首先特别感谢我的队友 Tal :)
作为骨干网络,我们使用了 TResNet 架构(高性能 GPU 专用架构),这使我们能够使用大批量进行快速训练,同时在所有分辨率下保持高分(更多详情请参阅我们的论文和代码)。
本次比赛中使用的模型:TResNet-M, TResNet-L。
我们避免使用巨大的分类层:2048x32094(6572万参数),而是使用了一个瓶颈头,将嵌入特征向量从 2048 维减少到 512 维。总参数量 = 2048x512 + 512x32094(1748万参数)。
这种修改不仅减小了网络规模,还允许我们使用更大的批量样本(更快的训练速度,且有助于 Soft-Triplet 损失)。
我们使用了带有 0.2 标签平滑的交叉熵损失,此外还添加了带有软边界的 Soft-Triplet 损失,该损失通过关注批次中最困难的正样本和负样本来强调困难样本。更多详情请查看我们的 ReID 论文第 3.1 节。
在线困难负样本挖掘在使用大批量训练时效果最好(更多的负样本);因此,我们利用了网络的高内存利用率和瓶颈头。例如:在单张 V100 16GB 显卡上使用 TResNet-M @ 448x448,我们可以达到 128 的最大批量大小,这明显高于 EfficientNet 和 ResNext 等其他常见网络。
Herbarium 2020 数据集存在明显的类别不平衡,因此我们使用了一种简单的损失加权方法,即乘以类别频率的倒数。
注意:我们仅在训练的最后约 15 个 epoch 中使用了类别平衡,以便网络先学习基本特征。
特殊的增强方案(在 Public LB 上提升约 0.5%):
平均水平翻转预测结果。
模型:TResNet-L
阶段 1:
在 448x448 分辨率下训练 100 个 epoch,CE+SoftTriplet(类别平衡从第 85 个 epoch 开始)
Public LB 分数(无后处理):0.84089
Public LB 分数(有后处理 P1+P2):0.85093
阶段 2(高分辨率微调):
在 544x416 分辨率下微调 10 个 epoch + 类别平衡
Public LB 分数(无后处理):0.84727
Public LB 分数(有后处理 P1+P2):0.85604
组织