返回列表

27th place solution

448. SIIM-FISABIO-RSNA COVID-19 Detection | siim-covid19-detection

开始: 2021-05-18 结束: 2021-08-09 医学影像分析 数据算法赛
第27名方案

第27名方案

作者: Amin (Team Gold Diggers) | 排名: 27/1307 | 发布时间: 2021-08-10

我要感谢 Kaggle 和主办方 SIIM-FISABIO-RSNA 在这场疫情期间举办了如此特别的比赛。
同时,非常感谢我的队友 @nicohrubec@xiaojin712@nickuzmenkov,在过去的一个月里,他们每天都在努力工作,试图跟上最后的冲刺步伐,并保持在排行榜的前列。

最终得分

任务 CV Public LB Private LB
Study level (研究级别) 0.398 0.464 0.428
Image level (图像级别) 0.264 0.282 0.279
总分 0.662 0.644 0.617

1- 预训练

Pretraining Image

我们在比赛开始时在 NIH 数据集上预训练了一个 EfficientNet B7,这给 CV 和 LB 都带来了 +0.002 的提升。
该模型的 OOF(Out-of-Fold)预测结果被保存下来,用于对我们所有的模型应用自蒸馏。

2- Study level 分类

Study Level Classification
  • 自蒸馏:
    我们开始使用自蒸馏,通过混合 labels*0.7 + B7 OOFs*0.3。这个想法类似于标签平滑,即向标签中引入一些噪声,而不是向模型输入独热编码表示。我们不断增加 B7 OOF 的系数,CV 和 LB 也随之增加,直到最终达到 labels*0.15 + B7 OOFs*0.85,LB 总共提升了 +0.007

  • 伪标签:
    我们的做法没有什么特别之处。我们只是取公开可用的测试集部分,并用我们的预测结果对其进行标记。
    然后,我们将测试数据作为附加数据添加到所有训练折中,并将预测结果作为软标签。这是我们对 PyTorch 流程所做的最早改进之一。当时它使 CV 提升了 +0.007,LB 提升了 +0.012

  • 分割作为辅助头:
    辅助头的代码我们基本上是从 Heng 那里复制的。辅助头连接在第 4 个卷积块之后。损失计算为 0.7 LOVASZ + 0.3 BCE
    有趣的是,我们发现辅助头确实提高了性能,但仅限于没有使用伪标签的模型。我们没有进一步调查原因。一个潜在的原因可能是测试集的预测掩码太嘈杂而无法发挥作用。
    Effnet V2-M + 辅助头的效果不如其他团队那么好,它没有超过我们使用伪标签训练的最佳单模型。将其包含在融合中确实提升了集成效果。

  • 微调:
    开始时我们使用 V2L 和 512 的图像尺寸。在某个时候,我们切换到了图像尺寸 384 和 Efficientnet V2M。
    此外,我们调整了学习率。所有这些变化加在一起使 CV 和 LB 增加了约 0.01。

同比赛其他方案