返回列表

18th Private LB Solution –> Silver

512. Google Universal Image Embedding | google-universal-image-embedding

开始: 2022-07-11 结束: 2022-10-10 计算机视觉 数据算法赛
第18名 Private LB 方案 -> 银牌

第18名 Private LB 方案 -> 银牌

作者: Igor Lashkov, ammarali32
比赛排名: 第18名

我们的团队非常感谢 Kaggle 员工和 Google 主办这场激动人心的比赛,也感谢这里所有的参赛者。祝贺所有参与者!

特别感谢 @ammarali32 的辛勤和高效的团队合作。我们真的很享受这次比赛!

关键点

  • 自定义数据集
  • 使用在 LAION-2B 上训练的 CLIP 视觉编码器,微调了 22 个 epoch
  • 仅使用 ArcFaceMarginLayer 训练投影层
  • 使用大小为 64 的单个投影全连接 (FC) 层(比使用多个 FC 效果更好)
  • TTA(测试时增强)—— 将图像从 224 放大到 240 有助于将分数提高约 0.003-0.004
  • 通过在实际训练开始前预提取嵌入 (embedding) 来缩短训练时间。我们后来发现了这项技术,并没有过多依赖它。

数据集

  • Google landmark recognition 2021(7k 个类别,每个类别最多 35 张图片)。后来我们切换到了 GLR 数据集的清理版本,但不幸的是,由于经常发生内存不足 (OOM) 异常,我们无法完全测试它。
  • Products10K(9691 个类别,141K 张图片)
  • Open Food Facts dataset(2k 个类别,每个类别至少 40 张图片)
  • 60,000+ Images of Cars(322 个类别,12K 张图片)
  • Stanford Online Products(仅选取家具,每个类别至少 10 张图片)
  • Landmarks (210)(210 个类别,10K 张图片)
  • Food 41(101 个类别,3K 张图片)
  • Dishes 67(67 个类别,670 张图片)
  • Food Recognition 2022(500 个类别,12K 张图片)
  • Storefront(141 个类别,4.5k 张图片)

无效的尝试

  • 训练时使用强数据增强
  • 使用对比损失 进行无监督学习
  • 训练时使用零填充 的图像
  • MET、艺术史数据集、130K 张图片
  • 距离层、ElasticArcFace
  • AdaptiveAveragePooling、GeM pooling、多层线性层
  • 在 GLR 数据集中使用更多的单类图片数 / 更多的类别数
同比赛其他方案