Silver medal solution: ViT-L/14 with test time augmentations

512. Google Universal Image Embedding | google-universal-image-embedding

开始: 2022-07-11 结束: 2022-10-10 计算机视觉数据算法赛

银牌方案：带测试时增强的 ViT-L/14

银牌方案：带测试时增强的 ViT-L/14

作者：Viacheslav Barkov
发布时间：2022年10月11日

感谢主办方、组织者和所有参与者！

您可以在 Kaggle 上查看我的解决方案代码。

方案简要总结

ViT-L/14 编码器：使用 OpenCLIP 实现的 ViT-L/14 编码器，并在 LAION-400M 数据集上进行了预训练。如果在输入图像调整大小时保持宽高比，该模型在 Public LB 上得分为 0.519，在 Private LB 上得分为 0.537。
投影层：基于 @motono0223 的工作，在 Products-10k 数据集上使用 ArcFace 损失训练了投影层。这一改进使分数提升至 Public 0.598 / Private 0.608。
多种测试时增强：应用了多种测试时增强策略，最终分数提升至 Public 0.628 / Private 0.631：
- 预定义裁剪：包括中心裁剪和两个具有预选偏移量的裁剪。
- 像素丢弃：根据预定义的掩码从图像中丢弃像素。

同比赛其他方案

1st place solution

[2nd place] Solution

GUIE 4th Place Solution

5th place solution[NS embedding]

9th place solution: finetune CLIP ViT-H/14