第二名解决方案

作者： ZhangWesley, Ccwhgn, HarryPotter, Wu You, Fanley Zhang
比赛： Google Landmark Retrieval 2021

源代码 GitHub Repository 论文 arXiv:2110.04294 提交 Kaggle Notebook

简介

图像检索是一项非常重要的计算机视觉任务，旨在寻找与查询图像相似的图像。它与实例级检索不同。图像检索旨在检索与查询对象外观相同的对象，即使它们不是同一个实例。这使得该任务比实例级检索更容易。

另一方面，它与细粒度图像检索不同。细粒度图像检索由于类内差异小，更关注局部注意力以发现更多细节，例如行人重识别。

地标检索是一项实例级检索任务，旨在从大量候选集中搜索相同的地标。在本文中，我们将介绍在 Kaggle 上举办的第四届地标检索竞赛——Google Landmark Retrieval 2021 中使用的技术。其中一些灵感来自于行人重识别中最先进的算法。

此外，我们还涉及了许多在以往竞赛中常用的技术，包括模型结构、训练策略和损失函数。这些技术在以前的比赛中已经被很好地探索和介绍过，因此我们只介绍我们的方法，即下面列出的新贡献：

我们引入了行人重识别中的技巧包，并对这些技巧进行了仔细的实验。
我们提出了一种基于大洲标签平衡训练图像分布的大洲感知采样器。
我们设计了一种地标-国家感知重排序算法，并将其与 K-reciprocal 重排序方法相结合。

方法与实验

训练集与验证集

官方 GLDv2 数据集提供了 clean（清洁）版和 full（完整）版。正如之前的工作所指出的，许多与 clean 集具有相同 ID 的噪声图像在清洗阶段被过滤掉了。将这些噪声数据扩展到 clean 集中形成了 'c2x'。虽然不相似，但这些噪声图像可能包含非常有价值的信息，例如建筑的室内或室外场景。此外，我们还包含了 GLDv2 的索引集，该索引集与 trainfull 共享许多共同的 ID。为了更好地理解，我们在下面列出了数据集。

训练集	样本数	标签数
Clean	1,580,470	81,313
C2x	3,223,078	81,313
Trainfull	4,132,914	203,094
All	4,825,830	203,094

我们使用 1129 张 GLDv2 测试集图像以及竞赛中的 76,176 张索引集图像。我们将每个查询的所有真实标签（GT）图像放入索引集中，并将其扩展到 78,959 张图像。在这种情况下，任何查询都可以在索引集中找到其所有的真实标签图像。

基线网络

我们选择了几种大型 CNN 网络作为主干，包括 SE-ResNet-101、ResNeXt-101、ResNeSt101 和 ResNeSt269。SE-ResNet 和 ResNeXt-101 使用了 IBN 扩展。预训练的输入大小选择为 384，最后一次微调选择为 512。CNN 网络的最后一个步幅设置为 1。

我们使用广义平均池化，参数 p=3.0。使用 scale=30 和 margin=0.3 的 Arcface 损失。权重衰减为 0.0005。关于逐渐增大输入大小和数据规模的训练细节可以在实现细节中找到。

我们探索了行人重识别中的一些技巧。由于数据集非常大，我们使用 R50 主干，输入大小为 256 × 256。我们列出了验证准确率以及公开/私有分数。随机

2nd Place Solution

第二名解决方案

简介

方法与实验

训练集与验证集

基线网络

同比赛其他方案