银牌方案:带测试时增强的 ViT-L/14
银牌方案:带测试时增强的 ViT-L/14
作者:Viacheslav Barkov
发布时间:2022年10月11日
感谢主办方、组织者和所有参与者!
您可以在 Kaggle 上查看我的解决方案代码。
方案简要总结
- ViT-L/14 编码器:使用 OpenCLIP 实现的 ViT-L/14 编码器,并在 LAION-400M 数据集上进行了预训练。如果在输入图像调整大小时保持宽高比,该模型在 Public LB 上得分为 0.519,在 Private LB 上得分为 0.537。
- 投影层:基于 @motono0223 的工作,在 Products-10k 数据集上使用 ArcFace 损失训练了投影层。这一改进使分数提升至 Public 0.598 / Private 0.608。
- 多种测试时增强:应用了多种测试时增强策略,最终分数提升至 Public 0.628 / Private 0.631:
- 预定义裁剪:包括中心裁剪和两个具有预选偏移量的裁剪。
- 像素丢弃:根据预定义的掩码从图像中丢弃像素。