18th Private LB Solution –> Silver

512. Google Universal Image Embedding | google-universal-image-embedding

开始: 2022-07-11 结束: 2022-10-10 计算机视觉数据算法赛

第18名 Private LB 方案 -> 银牌

第18名 Private LB 方案 -> 银牌

作者: Igor Lashkov, ammarali32
比赛排名: 第18名

我们的团队非常感谢 Kaggle 员工和 Google 主办这场激动人心的比赛，也感谢这里所有的参赛者。祝贺所有参与者！

特别感谢 @ammarali32 的辛勤和高效的团队合作。我们真的很享受这次比赛！

关键点

自定义数据集
使用在 LAION-2B 上训练的 CLIP 视觉编码器，微调了 22 个 epoch
仅使用 ArcFaceMarginLayer 训练投影层
使用大小为 64 的单个投影全连接 (FC) 层（比使用多个 FC 效果更好）
TTA（测试时增强）—— 将图像从 224 放大到 240 有助于将分数提高约 0.003-0.004
通过在实际训练开始前预提取嵌入 (embedding) 来缩短训练时间。我们后来发现了这项技术，并没有过多依赖它。

数据集

Google landmark recognition 2021（7k 个类别，每个类别最多 35 张图片）。后来我们切换到了 GLR 数据集的清理版本，但不幸的是，由于经常发生内存不足 (OOM) 异常，我们无法完全测试它。
Products10K（9691 个类别，141K 张图片）
Open Food Facts dataset（2k 个类别，每个类别至少 40 张图片）
60,000+ Images of Cars（322 个类别，12K 张图片）
Stanford Online Products（仅选取家具，每个类别至少 10 张图片）
Landmarks (210)（210 个类别，10K 张图片）
Food 41（101 个类别，3K 张图片）
Dishes 67（67 个类别，670 张图片）
Food Recognition 2022（500 个类别，12K 张图片）
Storefront（141 个类别，4.5k 张图片）

无效的尝试

训练时使用强数据增强
使用对比损失进行无监督学习
训练时使用零填充的图像
MET、艺术史数据集、130K 张图片
距离层、ElasticArcFace
AdaptiveAveragePooling、GeM pooling、多层线性层
在 GLR 数据集中使用更多的单类图片数 / 更多的类别数

同比赛其他方案

1st place solution

[2nd place] Solution

GUIE 4th Place Solution

5th place solution[NS embedding]

9th place solution: finetune CLIP ViT-H/14