4th place solution

第4名解决方案

作者： Dieter (Grandmaster), Psi (Grandmaster)
比赛排名： 第4名

总结

我们的解决方案基于单阶段分类模型的简单平均，并使用了用于分割的代理损失。我们的方案仅利用了主办方提供的训练数据，未使用任何其他额外数据。在建模方面，我们依赖一组 EfficientNet 模型，并为其配备了单独的 Unet 分割头。我们相信，解决方案的简洁性以及不使用外部数据的特点，使其在其他顶尖方案中独树一帜。

流程

我们以协作的方式参与比赛，每位团队成员都使用同一个核心流程。我们使用了以下工具：

Github： 版本控制和代码共享
Neptune.ai： 日志记录和可视化
Kaggle API： 数据集上传/下载
AWS： 数据存储

数据设置与交叉验证 (CV)

我们仅使用了比赛主办方提供的训练数据，并未求助于任何外部数据（如额外的 Chest14 数据）。我们的验证设置基于 5 折随机分层交叉验证。在开发解决方案的过程中，我们观察到验证集与公共排行榜之间具有良好的相关性。此外，我们选出的最佳提交方案在本地交叉验证、公共排行榜得分以及私有排行榜得分上均表现最佳，证明了我们解决方案的稳健性。

模型

融合中的每个模型都是一个单阶段模型，由 EfficientNet 主干以及一个分类头和一个 Unet 分割头组成。Unet 分割头作为模型的一种正则化形式，最终预测仅使用分类头的输出。这使得我们可以在推理时删除分割部分，将模型简化为一个简单的 EfficientNet。

我们通过结合分类损失和分割损失来训练模型，并将分割损失的权重设为 50。我们仅在训练数据中拥有标注的样本上计算分割损失，并忽略没有标注的样本。对于标注，我们使用具有特定厚度的 cv2.polylines 在标注点之间插值一条线。分类头采用最大池化。

我们使用 Adam 优化器和余弦学习率衰减来拟合模型。在训练增强方面，我们使用了随机水平翻转、平移/缩放/旋转和随机亮度。为了更好地处理反转图像，我们在训练时也随机反转图像。我们还尝试通过应用 LongestMaxSize 来保持图像的长宽比，然后随机裁剪图像的一部分进行训练。在推理时，我们使用的图像尺寸（非裁剪）比训练时稍大，但不应用任何进一步的 TTA（测试时增强）。

模型融合

我们的最终提交包含了 16 个在完整训练数据上训练的模型。这些模型基于 EfficientNet B7 或 B8，并在 896 或 1024 的正方形图像尺寸上进行训练。融合方式是每个模型概率输出的简单平均。我们的最终提交代表了我们在本地 CV 得分、公共 LB 得分和私有 LB 得分上的最佳表现。

第4名解决方案

总结

流程

数据设置与交叉验证 (CV)

模型

模型融合

同比赛其他方案