1st place solution summary

397. Google Landmark Retrieval 2020 | landmark-retrieval-2020

开始: 2020-06-30 结束: 2020-08-17 计算机视觉数据算法赛

第一名解决方案总结

第一名解决方案总结

作者：keetar (Grandmaster)
比赛：Google Landmark Retrieval 2020
排名：第 1 名

[更新] 解决方案 arxiv 链接：https://arxiv.org/abs/2009.05132

非常感谢 Google 和 Kaggle 团队举办这次比赛，也祝贺所有成功完赛的参与者。通过阅读文章、分析代码和做实验，我在比赛中学到了很多东西。

我想分享我的解决方案，详细的解决方案将在几天后上传到 arxiv。

模型结构如下所示。

模型结构图

基本配置

验证集：在 GLD v2 干净数据集中样本数 >=4 的类别中，每类取 1 个样本（共 72322/81313 个类别）。
余弦 Softmax：s 由 adacos 确定，m=0。
加权交叉熵：权重与 1/log(类别数量) 成正比。
数据增强：左右翻转。
优化器：SGD (学习率 1e-3, 动量 0.9, 衰减 1e-5)。
嵌入维度：每个模型均为 512。
硬件：Colab TPUs。

训练策略

使用 GLD v2 干净数据集训练模型，对 81313 个类别进行分类。

efn7 512x512 私有 LB: 0.30264, 公开 LB: 0.33907
从第 1 步提取 EfficientNet 主干网络，使用 GLD v2 完整数据集训练模型，对 203094 个类别进行分类。

efn7 512x512 私有 LB: 0.33749, 公开 LB: 0.36576
从第 2 步提取整个模型，向模型输入逐渐增大的图像。

efn7 640x640 私有 LB: 0.35389, 公开 LB: 0.39121
efn7 736x736 私有 LB: 0.36364, 公开 LB: 0.40174
从第 3 步提取整个模型，将 GLD v2 干净样本的损失权重设为两倍。

efn7 640x640 私有 LB: 0.35932, 公开 LB: 0.39881
efn7 736x736 私有 LB: 0.36569, 公开 LB: 0.40215

模型集成

736x736 efn7 + efn6 + efn5 + efn5 加权拼接
(均执行训练步骤 3，权重：efn7=1.0, efn6=0.8, efn5=0.5)
私有 LB: 0.38366, 公开 LB: 0.41986
相同配置，其中 efn7 执行训练步骤 4
私有 LB: 0.38677, 公开 LB: 0.42328

如果您有任何问题，请随时提问。
谢谢。

附件下载

1st_Place_Solution_to_Google_Landmark_Retrieval_2020_modified.pdf PDF 文档 - 详细解决方案论文

同比赛其他方案

2nd place solution summary

[Update] 3rd place solution

4th place solution and experience sharing

5th place solution write-up

8th place solution