返回列表

9th place solution: finetune CLIP ViT-H/14

512. Google Universal Image Embedding | google-universal-image-embedding

开始: 2022-07-11 结束: 2022-10-10 计算机视觉 数据算法赛
第9名方案:微调 CLIP ViT-H/14

第9名方案:微调 CLIP ViT-H/14

作者:Akihiro Katsura
比赛排名:第9名

首先,我要感谢主办方举办这场精彩的比赛!

我的解决方案很大程度上基于 @motono0223 的工作。非常感谢!
https://www.kaggle.com/code/motono0223/guie-clip-tensorflow-train-example

* 我的代码现已公开 *

相比原工作的关键改进

  • 向 ArcFace 输入 64 维向量(而不是 256 维)(提升约 0.01)
  • 基于 LAION-2B 的 Open CLIP ViT-H/14(提升约 0.08)
  • 线性降低学习率 LR(提升约 0.01)
  • 以较低的学习率微调主干 CLIP 模型 1 个 epoch,不使用数据增强(提升约 0.02)
    • 这里的 1 个 epoch 相当于 @motono0223 工作中的 10 个 epoch

数据集

我确实认为找到好的数据集是赢得比赛最重要的事情。
然而,我最终使用了与原工作相同的数据集。
我找不到其他效果好的数据集。😭

据我所知,数据集效果排序如下:Products-10K > Landmark Retrieval 2021 > ImageNet-1K > Deep Fashion = Food Recognition > 其他

备注

  • 在提交过程中(使用 CLIP H/14 时),我遇到了随机的 OOM(内存不足)错误。因此我放弃了更复杂的架构。(这就是为什么我没做集成或 TTA 的原因 🤔)

感谢阅读!

同比赛其他方案