6th place solution

第6名解决方案

作者： ns64, kenji, tomotana14, ryoshih
比赛： Google Landmark Recognition 2020

我们要感谢所有组织者带来了这场非常激动人心的比赛。
祝贺所有完成比赛的人以及获奖者。

摘要

基于全局描述符的 kNN
利用测试集与 GLDv2 测试集之间的相似性进行非地标过滤
我们尝试了局部描述符方法，但在最终提交中未使用

模型细节

我们训练了基于 CosFace 的全局特征模型。
设置与我们在 retrieval2020 中的模型几乎相同（参见 https://www.kaggle.com/c/landmark-retrieval-2020/discussion/175472）

主干网络：ResNeSt101, ResNeSt101, ResNeSt200 的集成
池化：GeM (p=3)（测试时将 GeM p=3 替换为 p=4）
头部：FC->BN->L2
损失函数：带有标签平滑的 CosFace
数据增强：水平翻转、随机缩放裁剪、旋转、随机灰度化、颜色抖动、高斯噪声、归一化和 GridMask
学习率：带预热的余弦退火学习率，训练 30 个 epoch + 微调 5 个 epoch
训练输入图像尺寸：352（微调时：640）
在训练中加入了从去年识别比赛的测试集中采样的 600 张非地标图像（这使得总类别数达到 81,314 类）。

此外，我们尝试了 MutualNet 论文中的“原地知识蒸馏”以有效地训练多尺度图像特征。
所有模型都采用了这一方法。

基于 HOW 描述符的 ASMK 相似度

我们尝试了 HOW 描述符作为全局特征模型的替代方案。
HOW 通过 ASMK 将基于 CNN 的局部描述符聚合为单个全局描述符。
我们训练了一个基于 ResNet50 的 HOW 描述符模型（我们的 PyTorch 实现），并获得公共分数 = 0.5284（私有分数 = 0.5044）。
我们的最终提交之一基于全局余弦相似度和 ASMK 相似度的混合，这取得了最好的公共分数 = 0.6298。然而，另一种仅使用全局特征的方法获得了更好的私有分数。

最终提交	私有分数	公共分数
全局特征	0.5983	0.6271
全局 + HOW ASMK	0.5960	0.6298

无效尝试

使用 HOW ASMK 相似度对 top-k 进行重排序（混合相似度效果更好）
使用 DELG 局部描述符对 top-k 进行重排序
DBA
用 GLDv2clean 替换私有训练集
- 每个类别欠采样至最多 350 张图像
- 移除私有训练集中不存在的类别

第6名解决方案

摘要

模型细节

基于 HOW 描述符的 ASMK 相似度

无效尝试

同比赛其他方案