424. RANZCR CLiP - Catheter and Line Position Challenge | ranzcr-clip-catheter-line-classification
我们的解决方案基于单阶段分类模型的简单平均,并使用了用于分割的代理损失。我们的方案仅利用了主办方提供的训练数据,未使用任何其他额外数据。在建模方面,我们依赖一组 EfficientNet 模型,并为其配备了单独的 Unet 分割头。我们相信,解决方案的简洁性以及不使用外部数据的特点,使其在其他顶尖方案中独树一帜。
我们以协作的方式参与比赛,每位团队成员都使用同一个核心流程。我们使用了以下工具:
我们仅使用了比赛主办方提供的训练数据,并未求助于任何外部数据(如额外的 Chest14 数据)。我们的验证设置基于 5 折随机分层交叉验证。在开发解决方案的过程中,我们观察到验证集与公共排行榜之间具有良好的相关性。此外,我们选出的最佳提交方案在本地交叉验证、公共排行榜得分以及私有排行榜得分上均表现最佳,证明了我们解决方案的稳健性。
融合中的每个模型都是一个单阶段模型,由 EfficientNet 主干以及一个分类头和一个 Unet 分割头组成。Unet 分割头作为模型的一种正则化形式,最终预测仅使用分类头的输出。这使得我们可以在推理时删除分割部分,将模型简化为一个简单的 EfficientNet。
我们通过结合分类损失和分割损失来训练模型,并将分割损失的权重设为 50。我们仅在训练数据中拥有标注的样本上计算分割损失,并忽略没有标注的样本。对于标注,我们使用具有特定厚度的 cv2.polylines 在标注点之间插值一条线。分类头采用最大池化。
我们使用 Adam 优化器和余弦学习率衰减来拟合模型。在训练增强方面,我们使用了随机水平翻转、平移/缩放/旋转和随机亮度。为了更好地处理反转图像,我们在训练时也随机反转图像。我们还尝试通过应用 LongestMaxSize 来保持图像的长宽比,然后随机裁剪图像的一部分进行训练。在推理时,我们使用的图像尺寸(非裁剪)比训练时稍大,但不应用任何进一步的 TTA(测试时增强)。
我们的最终提交包含了 16 个在完整训练数据上训练的模型。这些模型基于 EfficientNet B7 或 B8,并在 896 或 1024 的正方形图像尺寸上进行训练。融合方式是每个模型概率输出的简单平均。我们的最终提交代表了我们在本地 CV 得分、公共 LB 得分和私有 LB 得分上的最佳表现。