9th place solution: finetune CLIP ViT-H/14

第9名方案：微调 CLIP ViT-H/14

作者：Akihiro Katsura
比赛排名：第9名

首先，我要感谢主办方举办这场精彩的比赛！

相比原工作的关键改进

向 ArcFace 输入 64 维向量（而不是 256 维）（提升约 0.01）
基于 LAION-2B 的 Open CLIP ViT-H/14（提升约 0.08）
线性降低学习率 LR（提升约 0.01）
以较低的学习率微调主干 CLIP 模型 1 个 epoch，不使用数据增强（提升约 0.02）
- 这里的 1 个 epoch 相当于 @motono0223 工作中的 10 个 epoch

我确实认为找到好的数据集是赢得比赛最重要的事情。
然而，我最终使用了与原工作相同的数据集。
我找不到其他效果好的数据集。😭

据我所知，数据集效果排序如下：Products-10K > Landmark Retrieval 2021 > ImageNet-1K > Deep Fashion = Food Recognition > 其他

在提交过程中（使用 CLIP H/14 时），我遇到了随机的 OOM（内存不足）错误。因此我放弃了更复杂的架构。（这就是为什么我没做集成或 TTA 的原因 🤔）

感谢阅读！