返回列表

Silver medal solution: ViT-L/14 with test time augmentations

512. Google Universal Image Embedding | google-universal-image-embedding

开始: 2022-07-11 结束: 2022-10-10 计算机视觉 数据算法赛
银牌方案:带测试时增强的 ViT-L/14

银牌方案:带测试时增强的 ViT-L/14

作者:Viacheslav Barkov
发布时间:2022年10月11日

感谢主办方、组织者和所有参与者!

您可以在 Kaggle 上查看我的解决方案代码。

方案简要总结

  • ViT-L/14 编码器:使用 OpenCLIP 实现的 ViT-L/14 编码器,并在 LAION-400M 数据集上进行了预训练。如果在输入图像调整大小时保持宽高比,该模型在 Public LB 上得分为 0.519,在 Private LB 上得分为 0.537。
  • 投影层:基于 @motono0223 的工作,在 Products-10k 数据集上使用 ArcFace 损失训练了投影层。这一改进使分数提升至 Public 0.598 / Private 0.608。
  • 多种测试时增强:应用了多种测试时增强策略,最终分数提升至 Public 0.628 / Private 0.631:
    • 预定义裁剪:包括中心裁剪和两个具有预选偏移量的裁剪。
    • 像素丢弃:根据预定义的掩码从图像中丢弃像素。
同比赛其他方案