返回列表

5th Place Solution(Team: underfitting)

458. Google Landmark Retrieval 2021 | landmark-retrieval-2021

开始: 2021-08-11 结束: 2021-10-01 计算机视觉 数据算法赛
第5名解决方案 (团队: underfitting)

第5名解决方案 (团队: underfitting)

作者: tereka (Grandmaster) | 比赛排名: 第5名

首先,非常感谢主办方举办 Google 地标识别竞赛。
这些比赛对我们来说非常有趣且令人印象深刻。
同时也要感谢我的队友 ( @ks2019 ),他为我们的团队做出了许多贡献。

我们的第5名解决方案摘要如下:

简要总结

  • 主干网络 + ArcFace,使用 GLDv2 数据集训练 (410万张图片)
  • 后处理 (WDA, 桥接置信度 等)

解决方案

模型

模型架构为主干网络 + ArcFace 模块 + 平均池化。
主干网络列表如下:

  • EfficientNet v2s 800
  • EfficientNet v2m 732
  • EfficientNet v2m 640
  • EfficientNet v2l 720
  • EfficientNet v2xl 640 (训练尺寸 512)

训练数据为 gldv2 (410万张)。为了以大批量尺寸训练大尺寸图片,我们使用了梯度累积和混合精度训练 (针对 v2s 及以上版本)。

我们使用 Adam 优化器训练 15 个 epoch,配合余弦退火 学习率策略,并从每个模型中提取 512 维嵌入向量。之后我们创建了拼接向量 (2560维)。

我们的初步结果是使用 GPU 上的 KNN (cuml库) 方法得出的。
GPU 上的 KNN 比 CPU 更快,性能非常出色。

此外,我们使用了预计算的嵌入向量,在本地计算并全部上传 (用于后处理)。

后处理

我们在初步结果上应用了一些后处理方法。
包括 WDA、桥接置信度、Power KNN 等,详情请见:
https://www.kaggle.com/c/landmark-retrieval-2021/discussion/275955

硬件

TPU-v3 8核心 (GCP)

同比赛其他方案