返回列表

1st place solution summary

397. Google Landmark Retrieval 2020 | landmark-retrieval-2020

开始: 2020-06-30 结束: 2020-08-17 计算机视觉 数据算法赛
第一名解决方案总结

第一名解决方案总结

作者:keetar (Grandmaster)
比赛:Google Landmark Retrieval 2020
排名:第 1 名

[更新] 解决方案 arxiv 链接:https://arxiv.org/abs/2009.05132

非常感谢 Google 和 Kaggle 团队举办这次比赛,也祝贺所有成功完赛的参与者。通过阅读文章、分析代码和做实验,我在比赛中学到了很多东西。

我想分享我的解决方案,详细的解决方案将在几天后上传到 arxiv。

模型结构如下所示。

模型结构图

基本配置

  • 验证集:在 GLD v2 干净数据集中样本数 >=4 的类别中,每类取 1 个样本(共 72322/81313 个类别)。
  • 余弦 Softmax:s 由 adacos 确定,m=0。
  • 加权交叉熵:权重与 1/log(类别数量) 成正比。
  • 数据增强:左右翻转。
  • 优化器:SGD (学习率 1e-3, 动量 0.9, 衰减 1e-5)。
  • 嵌入维度:每个模型均为 512。
  • 硬件:Colab TPUs。

训练策略

  1. 使用 GLD v2 干净数据集训练模型,对 81313 个类别进行分类。

    efn7 512x512 私有 LB: 0.30264, 公开 LB: 0.33907

  2. 从第 1 步提取 EfficientNet 主干网络,使用 GLD v2 完整数据集训练模型,对 203094 个类别进行分类。

    efn7 512x512 私有 LB: 0.33749, 公开 LB: 0.36576

  3. 从第 2 步提取整个模型,向模型输入逐渐增大的图像。

    efn7 640x640 私有 LB: 0.35389, 公开 LB: 0.39121
    efn7 736x736 私有 LB: 0.36364, 公开 LB: 0.40174

  4. 从第 3 步提取整个模型,将 GLD v2 干净样本的损失权重设为两倍。

    efn7 640x640 私有 LB: 0.35932, 公开 LB: 0.39881
    efn7 736x736 私有 LB: 0.36569, 公开 LB: 0.40215

模型集成

  1. 736x736 efn7 + efn6 + efn5 + efn5 加权拼接
    (均执行训练步骤 3,权重:efn7=1.0, efn6=0.8, efn5=0.5)
    私有 LB: 0.38366, 公开 LB: 0.41986

  2. 相同配置,其中 efn7 执行训练步骤 4
    私有 LB: 0.38677, 公开 LB: 0.42328

如果您有任何问题,请随时提问。
谢谢。

同比赛其他方案