返回列表

25th solution

512. Google Universal Image Embedding | google-universal-image-embedding

开始: 2022-07-11 结束: 2022-10-10 计算机视觉 数据算法赛
第25名方案

第25名方案

作者:Fumihiro Kaneko
比赛排名:第25名

感谢主办方举办了一场精彩的比赛。

起初,我尝试使用文本-图像对比学习方法,并尝试了UMAP等降维技术,还尝试将不同类别(时尚/包装/地标等)嵌入到不同的离散空间中,但这些方法效果都不理想。

对我而言,motono0223的基线方法效果最好。即:冻结的CLIP + Arcface头。

关于类别的下采样

  • 64维的嵌入空间并不大,因此我调整了训练时的类别数量。
  • 从Products10k/GLR中选取4000个类别进行训练对我来说效果最好。
    image

难以建立良好的CV-LB相关性

  • 我配置了6种不同的检索任务,包括Products10k/GLR/Stanford Online Products/DeepFashion/MET/Food-101/ObjectNet,但无法找到清晰的CV(交叉验证)与LB(排行榜)之间的相关性。
  • 当仅使用Products10k/GLR进行训练时,Stanford Online Products(柜子/沙发/椅子)的检索设置与LB相对相关。但这仍然不是完美的。
    image

冻结CLIP

  • 解冻CLIP进行微调对我来说不起作用。降低学习率虽然可行,但冻结参数配合高学习率的效果更好。
  • 微调其他主干网络(如ImageNet预训练模型)的效果不佳。
  • 在冻结的CLIP上添加更多的Transformer层效果也不好。

我的比赛代码

同比赛其他方案