5th place solution write-up

397. Google Landmark Retrieval 2020 | landmark-retrieval-2020

开始: 2020-06-30 结束: 2020-08-17 计算机视觉数据算法赛

第5名解决方案分享

第5名解决方案分享

作者: NguyenThanhNhan (Grandmaster) | 排名: 第5名 | 发布时间: 2020-08-20

我要感谢我的队友 @aerdem4 在这次挑战中的工作、讨论和想法，这是我们第一次组队，结果非常成功 ✊。祝贺所有获胜的团队和个人选手！最后，非常感谢组织者和 Kaggle 举办这场有趣的比赛。

我们的最终提交包含来自两种不同架构（gempool cnn 和 delg）的 4 个模型。

1. 数据预处理

仅在清洗后的训练集（81313 个类别）上进行训练，通过从索引集中随机抽取 120000 张图像（与训练集有重叠类别）的子集计算全局平均精度指标来进行验证。
数据增强：将图像长边调整为 [544, 672]，然后随机裁剪 512x512，RandAugment + Cutout。

2. 建模

两种架构：带有 CosFace 头的 CNN（以 SEResNeXt50、SEResNeXt101 和 ResNeXt101-32x4d 为骨干网络），以及 DELG（在 PyTorch 中重新实现，以 SEResNet101 为骨干网络）。
使用了冻结参数 p 设为 3 的广义平均池化；瓶颈结构 (GEMPool(2048) -> Linear(512) -> BatchNorm1d -> CosFace(81313)) 以减少计算量。
模型训练了 10 或 20 个 epoch，使用 AdamW 优化器和余弦退火学习率预热调度器。
Focal loss 和标签平滑比交叉熵损失效果更好。

3. 推理

对每个模型提取尺度为 1 的特征（512 维）。
将 4 个模型的特征拼接成一个 2048 维的向量。
内核运行时间：8 小时 20 分钟。

4. 公开/私有榜单表现

方法	Epochs	公开分数	私有分数
resnext101 gem	20	0.34596	0.31024
seresnext50 gem	20	0.3349	0.29811
seresnext101 gem	20	0.34749	0.31282
seresnet101 delg	10	0.336	0.29882
ensemble (集成)		0.36644	0.32878

5. DELG vs GEM 消融实验

本节中的所有实验均使用 SEResNeXt50。

方法	Epochs	公开分数	私有分数
gem	10	0.32163	0.28434
gem + res5 后的自注意力块	15	0.32006	0.28187
gem + 在线难负样本挖掘	15	0.32357	0.28687
gem + focal loss	20	0.32634	0.29054
delg + focal loss	20	0.32928	0.29263 同比赛其他方案 1st place solution summary 2nd place solution summary [Update] 3rd place solution 4th place solution and experience sharing 8th place solution