第8名方案
第8名方案
作者: Eduardo Rocha de Andrade (arc144) 及团队成员
比赛: Landmark Retrieval 2020
排名: 第8名
首先,感谢 Google 和 Kaggle 举办了这次比赛,并祝贺获胜者们 :)
由于我们的解决方案与已经发布的方案以及 DELG 本身非常相似,我将保持简单和简略。
数据集
- GLDv2 clean
- 80% 用于训练,20% 用于验证(按图像划分)
损失函数
- ArcFace Layer
- Margin(边距): 0.3
- Scale(缩放): 46
模型
- ResNet101
- EfficientNetB5
- GeM 池化
- 池化后应用 FC + BN 生成 2048 维描述符
训练
- 在 512x512 分辨率下训练至收敛
- 在 640x640 分辨率下微调几个 epoch
- R101 大约训练了 35 个 epoch,B5 大约训练了 20 个 epoch
推理
- 多尺度 TTA (测试时增强)
- R101: 调整为 (640, 768) 的方形图像
- B5: 调整为 640 的方形图像 + 保持宽高比调整为 1024
- 每个模型通过平均多尺度预测并进行 l2-归一化生成 2048 维描述符
- 集成方式:将模型的预测拼接成 4096 维描述符,随后进行 l2-归一化