458. Google Landmark Retrieval 2021 | landmark-retrieval-2021
首先,非常感谢主办方举办 Google 地标识别竞赛。
这些比赛对我们来说非常有趣且令人印象深刻。
同时也要感谢我的队友 ( @ks2019 ),他为我们的团队做出了许多贡献。
我们的第5名解决方案摘要如下:
模型架构为主干网络 + ArcFace 模块 + 平均池化。
主干网络列表如下:
训练数据为 gldv2 (410万张)。为了以大批量尺寸训练大尺寸图片,我们使用了梯度累积和混合精度训练 (针对 v2s 及以上版本)。
我们使用 Adam 优化器训练 15 个 epoch,配合余弦退火 学习率策略,并从每个模型中提取 512 维嵌入向量。之后我们创建了拼接向量 (2560维)。
我们的初步结果是使用 GPU 上的 KNN (cuml库) 方法得出的。
GPU 上的 KNN 比 CPU 更快,性能非常出色。
此外,我们使用了预计算的嵌入向量,在本地计算并全部上传 (用于后处理)。
我们在初步结果上应用了一些后处理方法。
包括 WDA、桥接置信度、Power KNN 等,详情请见:
https://www.kaggle.com/c/landmark-retrieval-2021/discussion/275955
TPU-v3 8核心 (GCP)