1. 图像预处理：

我们最终方案中的所有分类模型均在 600x600 分辨率下训练，并在 640x640 分辨率下进行推理。
所有图像均基于黑色边界进行了裁剪。我们还发现有些图像是反转的，因此我们应用了反向反转处理。
数据增强包括：随机尺寸裁剪、水平翻转、随机 Gamma 变换、亮度调整、平移、缩放、旋转、对比度调整、不同的模糊处理、弹性/光学/网格畸变以及 Cutout。

2. 模型设计：

对于我们的大多数模型，输入采用了 4 通道设计：
1 通道灰度 CT 图像
3 通道掩码，其中 ETT、CVC、NGT、SwanGanz 分别被编码为 (0, 0, 255)、(0, 255, 0)、(255, 0, 0) 和 (255, 255, 255)。为了获得此类掩码，我们训练了一个简单的带有 EffNet-b0 骨干网络的 Unet 分割网络。

表现最好的分类骨干网络：EfficientNet-b6、EfficientNet-b7、ResNet200d、SeResNet152d

3. 训练：

Group KFold 5 折交叉验证
批次大小：14，累积 2 个批次梯度（在 4 个 GPU 上）
使用 Adam 优化器训练 30 个 Epoch。
学习率策略：0.001 SGDR
使用前 5 个检查点应用 SWA（随机权重平均）

4. 损失函数：

BCE 或者 ROCAUCLoss + BCE

5. 模型集成：

预测结果的简单平均值效果最好。我们尝试了不同的预测合并技术，但都没有成功。
以这种方式训练的单模型（5 折）在没有任何后处理的情况下，Public LB 得分为 0.971，Private LB 得分为 0.970。

框架：PyTorch

无效的尝试：

Chest14 数据集
伪标签