摘要

模型流程图

我们增加了 224*224 ViT 模型的 TTA 次数，因为在小图像尺寸下使用 RandomResizedCrop 进行 TTA 的准确性不稳定。

由于使用更强的增强（如 RandomBrightnessContrast）并没有提高 Public LB 分数，我们只进行了翻转。

根据 TTA 的随机数不同，Public LB 会有大约 0.001-0.003 的波动，但这个问题无法解决。

我们融合了 ViT-B/16、EfficientnetB4、ResNeSt101e 和 SE-Resnext50_32x4d 模型。

我们在 2019 年的数据上使用了无监督数据增强（半监督学习）或 BYOL（自监督学习），但这并没有对准确率的提高做出太大贡献。

通过对 k-fold 置信度取平均并融合五个或更多模型，我们能够实现稳定的 Public LB 分数超过 0.900。

我们曾基于混淆矩阵进行融合以获得更高的 CV 分数，但 Private LB 分数反而变差了。

通过使用 Conv2d+MLP 进行 Stacking，我们将 Public LB 从 0.905 提高到了 0.907。

我们使用融合模型的预测标签作为伪标签。

为了避免过拟合，我们通过向特征中添加高斯噪声来训练模型。

对于没有 Stacking 的简单平均融合，有一个提交结果在 Public 和 Private LB 上都达到了 0.902。

提交结果截图

正如在其他讨论中所讨论的那样，简单平均融合对于有噪声的测试数据集效果更好。

Private LB 34th / Public LB 30th solution