535. RSNA Screening Mammography Breast Cancer Detection | rsna-breast-cancer-detection
感谢所有参赛者在比赛中的辛勤付出。我们很荣幸能取得好成绩,在本次比赛中获得第三名。我们也想向组织者表示最深切的感谢,感谢他们举办了如此精彩的活动。非常感谢大家。
最后,我要感谢我优秀的队友 @haqishen、@boliu0、@kevin1742064161。代表我的队友,我想介绍我们解决方案的一部分,另一部分由 @boliu0 在另一个帖子中展示。
我们总共使用了 4 个外部数据集。并非所有模型都使用了所有外部数据。有些模型只使用了 CBIS-DDSM + CMMD,而其余模型则使用了全部四个外部数据集。虽然这些外部数据看起来与比赛数据有所不同,但它们可以提高交叉验证(CV)分数并显著增强训练的稳定性。
1) CBIS-DDSM
CBIS-DDSM 的分类标签为:恶性(MALIGNANT)、良性无需复查(BENIGN WITHOUT CALLBACK)、良性(BENIGN)。我们将恶性视为正样本,其他视为负样本,最终得到 1,350 个正样本和 1,753 个负样本。
2) CMMD
CMMD 的分类标签为:恶性(MALIGNANT)、良性(BENIGN)。我们将恶性视为正样本,良性视为负样本,最终得到 4,094 个正样本和 1,108 个负样本。
3) Vindr
Vindr 没有提供分类标签,但提供了 BI-RADS 指数。指数的详细解释可以在这里找到:
我们最终选择将 BI-RADS-4 和 BI-RADS-5 视为正样本,BI-RADS-2 和 BI-RADS-3 视为负样本,并丢弃其他类别。最终,我们获得了 988 个正样本和 5,606 个负样本。
4) Mini-DDSM
Mini-DDSM 的分类标签为:良性、癌症、正常。由于我们发现检测模型在正常类别中有大量错误的边界框,我们最终选择丢弃所有正常图像,将癌症视为正样本,良性视为负样本。最终,我们获得了 2,716 个正样本和 2,684 个负样本。
1) 首先,我们使用 1,000 张标注图像来训练 YOLOX-m,其中 500 张使用 @remekkinas 提供的开源标注,另外 500 张由我们手动标注(称为 BCD_1k)。未使用验证集,所有数据均用于训练和验证。
2) 使用步骤 1 中的模型,我们用 YOLOX-m 预测整个数据集,这将作为官方数据集的 ROI 裁剪。同时,检测框将被保存并创建一个伪标签数据集(称为 BCD_all)。
3) 使用步骤 2 获得的 BCD_all 数据集,训练 YOLOX-nano 和 YOLOX-x,不设验证集。YOLOX-nano 将用于最终的在线提交,而 YOLOX-x 将用于外部数据集的 ROI 裁剪。
4) 根据检测框裁剪图像,并调整大小为 1.6:1 的纵横比(1536*960 或 1280*800),并进行填充。