返回列表

6th place solution

401. Google Landmark Recognition 2020 | landmark-recognition-2020

开始: 2020-07-29 结束: 2020-09-29 计算机视觉 数据算法赛
第6名解决方案

第6名解决方案

作者: ns64, kenji, tomotana14, ryoshih
比赛: Google Landmark Recognition 2020

我们要感谢所有组织者带来了这场非常激动人心的比赛。
祝贺所有完成比赛的人以及获奖者。

摘要

  • 基于全局描述符的 kNN
  • 利用测试集与 GLDv2 测试集之间的相似性进行非地标过滤
  • 我们尝试了局部描述符方法,但在最终提交中未使用

模型细节

我们训练了基于 CosFace 的全局特征模型。
设置与我们在 retrieval2020 中的模型几乎相同(参见 https://www.kaggle.com/c/landmark-retrieval-2020/discussion/175472

  • 主干网络:ResNeSt101, ResNeSt101, ResNeSt200 的集成
  • 池化:GeM (p=3)(测试时将 GeM p=3 替换为 p=4)
  • 头部:FC->BN->L2
  • 损失函数:带有标签平滑的 CosFace
  • 数据增强:水平翻转、随机缩放裁剪、旋转、随机灰度化、颜色抖动、高斯噪声、归一化 和 GridMask
  • 学习率:带预热的余弦退火学习率,训练 30 个 epoch + 微调 5 个 epoch
  • 训练输入图像尺寸:352(微调时:640)
  • 在训练中加入了从去年识别比赛的测试集中采样的 600 张非地标图像(这使得总类别数达到 81,314 类)。

此外,我们尝试了 MutualNet 论文中的“原地知识蒸馏”以有效地训练多尺度图像特征。
所有模型都采用了这一方法。

基于 HOW 描述符的 ASMK 相似度

我们尝试了 HOW 描述符作为全局特征模型的替代方案。
HOW 通过 ASMK 将基于 CNN 的局部描述符聚合为单个全局描述符。
我们训练了一个基于 ResNet50 的 HOW 描述符模型(我们的 PyTorch 实现),并获得公共分数 = 0.5284(私有分数 = 0.5044)。
我们的最终提交之一基于全局余弦相似度和 ASMK 相似度的混合,这取得了最好的公共分数 = 0.6298。然而,另一种仅使用全局特征的方法获得了更好的私有分数。

最终提交 私有分数 公共分数
全局特征 0.5983 0.6271
全局 + HOW ASMK 0.5960 0.6298

无效尝试

  • 使用 HOW ASMK 相似度对 top-k 进行重排序(混合相似度效果更好)
  • 使用 DELG 局部描述符对 top-k 进行重排序
  • DBA
  • 用 GLDv2clean 替换私有训练集
    • 每个类别欠采样至最多 350 张图像
    • 移除私有训练集中不存在的类别
同比赛其他方案