396. SIIM-ISIC Melanoma Classification | siim-isic-melanoma-classification
恭喜所有的获奖者,特别是我的队友 Qishen @haqishen 和 Gary @garybios,他们都是计算机视觉竞赛的老将。我从你们那里学到了很多。很高兴看到你们在经历了 Deepfake 的风波后,再次登上排行榜的榜首。
特别感谢我的同事 Chris @cdeotte,我觉得你就像是这场比赛的非官方主办方,提供了所有的数据集、Notebook 和教程。如果没有你的贡献,这场比赛不会如此受欢迎。我们使用了你调整过大小的 JPG 图像和三重分层无泄漏折。谢谢你,Chris。
测试集非常小,且阳性样本的比例非常小。因此,Public LB(公开排行榜)具有巨大的方差。即使是 2020 年的训练数据也不足以用于验证目的,因为其阳性样本也很少。
为了获得稳定的验证结果,我们使用了 2018+2019+2020 年的数据进行训练和验证。我们跟踪两个 CV 分数:cv_all 和 cv_2020。前者比后者稳定得多。
在 LB 中生存的第二个关键是集成。我们单模型的 LB-CV 相关性基本为 0,但集成规模越大,LB 越稳定。在最后几天,随着我们添加更好的模型,我们集成的 LB 稳步上升。
我们的最终集成 1 优化了 cv_all,最终集成 2 优化了 cv_2020。
cv_all=0.9845, cv_2020=0.9600, public=0.9442, private=0.9490(第 1 名)cv_2020=0.9638, public=0.9494, private=0.9481(第 3 名)我们最好的单模型 cv_2020=0.9481。
以上所有分数均为 5 折交叉验证,TTA x8。
在本次比赛中,带 TF 的 TPU 似乎主导了公开 Notebook。在 EfficientNets 上,它似乎比 Torch/GPU 更快。然而,我们的实验表明,其高 LB 分数是由于在 Public LB 上运气较好。我们的 Torch/GPU 模型具有更好的 CV,这得益于更好的 PyTorch 生态系统和更灵活的快速实验能力。
我们的集成由 EfficientNet B3-B7、se_resnext101、resnest101 组成。有些模型包含元数据,有些则没有。输入尺寸范围从 384 到 896。(所有输入均来自 Chris 调整过大小的 JPG。例如,对于 896 输入,我们读取 1024 JPG 并将其调整为 896。)
在我们部分(非全部)模型中,我们使用了来自这里和这里公开 Notebook 中的 14 个元数据,如下图所示。
我们发现,使用带有交叉熵损失的“诊断”作为目标,而不是带有 BCE 损失的二分类目标,可以将分数提高约 0.01。