3rd Place Solution (Part of data processing and Image-level model)

第三名方案（数据处理与图像级模型部分）

简介

感谢所有参赛者在比赛中的辛勤付出。我们很荣幸能取得好成绩，在本次比赛中获得第三名。我们也想向组织者表示最深切的感谢，感谢他们举办了如此精彩的活动。非常感谢大家。

最后，我要感谢我优秀的队友 @haqishen、@boliu0、@kevin1742064161。代表我的队友，我想介绍我们解决方案的一部分，另一部分由 @boliu0 在另一个帖子中展示。

1. 流程概述

使用 YOLOX 提取固定纵横比（1.6:1）的感兴趣区域（ROI）。
将 ROI 输入到不同的分类模型中。
对分类模型的结果进行平均加权融合。

2. 外部数据

我们总共使用了 4 个外部数据集。并非所有模型都使用了所有外部数据。有些模型只使用了 CBIS-DDSM + CMMD，而其余模型则使用了全部四个外部数据集。虽然这些外部数据看起来与比赛数据有所不同，但它们可以提高交叉验证（CV）分数并显著增强训练的稳定性。

1) CBIS-DDSM
CBIS-DDSM 的分类标签为：恶性（MALIGNANT）、良性无需复查（BENIGN WITHOUT CALLBACK）、良性（BENIGN）。我们将恶性视为正样本，其他视为负样本，最终得到 1,350 个正样本和 1,753 个负样本。

2) CMMD
CMMD 的分类标签为：恶性（MALIGNANT）、良性（BENIGN）。我们将恶性视为正样本，良性视为负样本，最终得到 4,094 个正样本和 1,108 个负样本。

3) Vindr
Vindr 没有提供分类标签，但提供了 BI-RADS 指数。指数的详细解释可以在这里找到：
我们最终选择将 BI-RADS-4 和 BI-RADS-5 视为正样本，BI-RADS-2 和 BI-RADS-3 视为负样本，并丢弃其他类别。最终，我们获得了 988 个正样本和 5,606 个负样本。

4) Mini-DDSM
Mini-DDSM 的分类标签为：良性、癌症、正常。由于我们发现检测模型在正常类别中有大量错误的边界框，我们最终选择丢弃所有正常图像，将癌症视为正样本，良性视为负样本。最终，我们获得了 2,716 个正样本和 2,684 个负样本。

3. 预处理

1) 首先，我们使用 1,000 张标注图像来训练 YOLOX-m，其中 500 张使用 @remekkinas 提供的开源标注，另外 500 张由我们手动标注（称为 BCD_1k）。未使用验证集，所有数据均用于训练和验证。

2) 使用步骤 1 中的模型，我们用 YOLOX-m 预测整个数据集，这将作为官方数据集的 ROI 裁剪。同时，检测框将被保存并创建一个伪标签数据集（称为 BCD_all）。

3) 使用步骤 2 获得的 BCD_all 数据集，训练 YOLOX-nano 和 YOLOX-x，不设验证集。YOLOX-nano 将用于最终的在线提交，而 YOLOX-x 将用于外部数据集的 ROI 裁剪。

4) 根据检测框裁剪图像，并调整大小为 1.6:1 的纵横比（1536*960 或 1280*800），并进行填充。

BCD_1k 和 BCD_all 数据集链接：

同比赛其他方案

1st place solution

2nd place solution

4th place solution

5th place solution

6th Place Solution: Multi-view Multi-lateral Multi-stage Approach