25th solution

512. Google Universal Image Embedding | google-universal-image-embedding

开始: 2022-07-11 结束: 2022-10-10 计算机视觉数据算法赛

第25名方案

第25名方案

作者：Fumihiro Kaneko
比赛排名：第25名

感谢主办方举办了一场精彩的比赛。

起初，我尝试使用文本-图像对比学习方法，并尝试了UMAP等降维技术，还尝试将不同类别（时尚/包装/地标等）嵌入到不同的离散空间中，但这些方法效果都不理想。

对我而言，motono0223的基线方法效果最好。即：冻结的CLIP + Arcface头。

关于类别的下采样

64维的嵌入空间并不大，因此我调整了训练时的类别数量。
从Products10k/GLR中选取4000个类别进行训练对我来说效果最好。

难以建立良好的CV-LB相关性

我配置了6种不同的检索任务，包括Products10k/GLR/Stanford Online Products/DeepFashion/MET/Food-101/ObjectNet，但无法找到清晰的CV（交叉验证）与LB（排行榜）之间的相关性。
当仅使用Products10k/GLR进行训练时，Stanford Online Products（柜子/沙发/椅子）的检索设置与LB相对相关。但这仍然不是完美的。

冻结CLIP

解冻CLIP进行微调对我来说不起作用。降低学习率虽然可行，但冻结参数配合高学习率的效果更好。
微调其他主干网络（如ImageNet预训练模型）的效果不佳。
在冻结的CLIP上添加更多的Transformer层效果也不好。

我的比赛代码

https://github.com/Fkaneko/kaggle_google_universal_image_embedding

同比赛其他方案

1st place solution

[2nd place] Solution

GUIE 4th Place Solution

5th place solution[NS embedding]

9th place solution: finetune CLIP ViT-H/14