1st place solution

第一名解决方案

作者：Bo (Grandmaster) | 比赛：SIIM-ISIC Melanoma Classification

恭喜所有的获奖者，特别是我的队友 Qishen @haqishen 和 Gary @garybios，他们都是计算机视觉竞赛的老将。我从你们那里学到了很多。很高兴看到你们在经历了 Deepfake 的风波后，再次登上排行榜的榜首。

特别感谢我的同事 Chris @cdeotte，我觉得你就像是这场比赛的非官方主办方，提供了所有的数据集、Notebook 和教程。如果没有你的贡献，这场比赛不会如此受欢迎。我们使用了你调整过大小的 JPG 图像和三重分层无泄漏折。谢谢你，Chris。

我们如何在“震荡”中幸存

测试集非常小，且阳性样本的比例非常小。因此，Public LB（公开排行榜）具有巨大的方差。即使是 2020 年的训练数据也不足以用于验证目的，因为其阳性样本也很少。

为了获得稳定的验证结果，我们使用了 2018+2019+2020 年的数据进行训练和验证。我们跟踪两个 CV 分数：cv_all 和 cv_2020。前者比后者稳定得多。

在 LB 中生存的第二个关键是集成。我们单模型的 LB-CV 相关性基本为 0，但集成规模越大，LB 越稳定。在最后几天，随着我们添加更好的模型，我们集成的 LB 稳步上升。

我们的最终集成 1 优化了 cv_all，最终集成 2 优化了 cv_2020。

集成 1：cv_all=0.9845, cv_2020=0.9600, public=0.9442, private=0.9490（第 1 名）
集成 2：cv_2020=0.9638, public=0.9494, private=0.9481（第 3 名）

我们最好的单模型 cv_2020=0.9481。

以上所有分数均为 5 折交叉验证，TTA x8。

TPU vs GPU，TF vs Torch

在本次比赛中，带 TF 的 TPU 似乎主导了公开 Notebook。在 EfficientNets 上，它似乎比 Torch/GPU 更快。然而，我们的实验表明，其高 LB 分数是由于在 Public LB 上运气较好。我们的 Torch/GPU 模型具有更好的 CV，这得益于更好的 PyTorch 生态系统和更灵活的快速实验能力。

模型

我们的集成由 EfficientNet B3-B7、se_resnext101、resnest101 组成。有些模型包含元数据，有些则没有。输入尺寸范围从 384 到 896。（所有输入均来自 Chris 调整过大小的 JPG。例如，对于 896 输入，我们读取 1024 JPG 并将其调整为 896。）

元数据

在我们部分（非全部）模型中，我们使用了来自这里和这里公开 Notebook 中的 14 个元数据，如下图所示。

目标

我们发现，使用带有交叉熵损失的“诊断”作为目标，而不是带有 BCE 损失的二分类目标，可以将分数提高约 0.01。

第一名解决方案

我们如何在“震荡”中幸存

TPU vs GPU，TF vs Torch

模型

元数据

目标

同比赛其他方案