返回列表

[Summary] Public 11 Private 23 and Congrats to a new Master

396. SIIM-ISIC Melanoma Classification | siim-isic-melanoma-classification

开始: 2020-05-27 结束: 2020-08-17 医学影像分析 数据算法赛
[总结] 公榜第11名,私榜第23名,祝贺一位新晋大师

[总结] 公榜第11名,私榜第23名,祝贺一位新晋大师

作者: Changyi (vicioussong) | 比赛排名: 21

首先,祝贺所有坚持使用交叉验证(CV)并最终获得应有名次的人!😁

非常感谢我的队友 @jielu0728@meliao@dandingclam@captain0602 😏。尽管对最终结果感到有些沮丧,因为我们原本希望能拿到金牌。但在顶级团队中,我们几乎是排名波动最小的团队之一。

我们 0.9451 的方案在我们所有的 300 多次提交中排名第 6,而我们最高的两次提交分数是 0.9462。但我个人并不后悔,因为这些提交看起来太不起眼了,它们既不是 CV 最高的,也不是 LB 最高的。即使多给我 10 天时间,我也绝不会想到选择它们。

[最终提交方案]

  • 集成模型 1 (信任 LB): 我们最好的公榜 LB 分数 0.9723(私榜 0.9268)
  • 集成模型 2 (信任模型数量): 对 LB 分数在 0.9680 到 0.9700 之间的 18 次提交进行简单平均排名(私榜 0.9397)
  • 集成模型 3 (信任 CV): 对 12 个最佳模型进行简单平均排名,CV 达到 0.9517(私榜 0.9451)

[单模型]

在图像部分,我们在 chris 的 notebook 基础上进行了改进。我们尝试在 256、384、512、600、768 的图像尺寸上训练 B0-7 模型。

ResNet 产生的差距较小,但由于其公榜分数较低,我们没有使用。

我们最好的单模型 CV:0.942-943,最好的 LB:0.9578。

在元数据部分,我们尝试了 ridge、xgb 和 lgb。但没有什么比与 Giba 的基线 进行加权融合效果更好。

[有效的技巧]

  • BCE + Focal Loss (FL) => 细节在文末
  • 在最佳分辨率下使用 EfficientNet。例如:B4 用 384,B5 用 512
  • 使用上采样和 2018ext 数据
  • Gridmask,我们发现 Gridmask 比 coarse dropout 效果更好 => 细节在文末
  • Noisy-student,训练 18 个 epoch,早停,对某些模型训练 15 折有帮助

[无效的技巧]

  • 添加毛发增强
  • 使用最低 loss 保存模型
  • 更改随机种子
  • 更改 FL 中的类别权重
  • 极端上采样,例如对 2020 恶性样本进行 25 倍上采样

[我们如何达到公榜 LB 0.9723]

0.9603: 3 个单模型的未加权几何平均

0.9643: 0.9603 * 0.4 + Giba 的基线 * 0.6

0.9694: 0.9643 + 0.9577 然后进行

同比赛其他方案