[第8名解决方案] 设计方法前先理解数据

作者：ForcewithMe | 发布时间：2024-01-04

致谢

我要向Kaggle、比赛组织者以及社区的其他参与者表示感谢。我从这次比赛中收获颇丰，并希望它能促进MIL（多实例学习）、人体组织分类与异常检测以及女性健康研究的发展。

引言

本次竞赛最关键的第一步是熟悉全切片图像（WSI）和组织微阵列（TMA）图像的特征。通过简单的目视检查即可发现，TMA和WSI的特征呈现尺度截然不同。TMA特征处于细胞层面，而WSI特征比细胞团簇大几倍到几十倍。因此，从比赛一开始，我就决定对WSI和TMA采用两种完全不同的处理方法。

全局方法的关键点：

分别处理WSI和TMA
对齐TMA和WSI的放大倍数，以便复用TMA训练代码来优化WSI特征提取器。
- WSI图像为20倍放大，而TMA图像为40倍。因此，需要将TMA图像下采样2倍，使其与WSI的物理尺度对齐，这也可以通过目视检查训练数据观察到。

解决方案架构

架构图

TMA方法

关键点摘要：

使用官方掩码切割的图像块进行训练（全局最重要的点）
使用健康和死亡图像块进行训练，以预测部分异常值
采用ArcFace检索部分异常值和五分类
集成6个分类模型来预测ArcFace未覆盖的样本

推理过程：

使用ArcFace检索，以训练集中的TMA为模板。对余弦距离较近的样本输出五分类结果，将距离较远的样本视为异常值。在ArcFace阶段不确定的样本留待后续阶段处理。
- 模型：5折Effv2s + 5折ConvNeXt Small（动态边界，subcenter=3）
- Top1阈值：0.05，其他类别阈值：0.2
六分类模型采用：2折Effv2s + 5折Effv2l + 4折ConvNeXt Small + 3折ConvNeXt Large

模型	分辨率
Effv2s	1280
Effv2l	1280
ConvNeXt Small	1024
ConvNeXt Large	1024

注：ArcFace可处理约60%的TMA样本。因此即使第二阶段较重，也不会导致超时。

训练过程：

使用官方分割掩码切割图像块。除官方5个类别外，将`healthy`和`dead`的图像块归类为`Other`类。不使用官方TMA进行训练（数量有限），而是用于后续验证和检索。
使用第一阶段模型对剩余300多张无掩码的WSI生成伪标签图像块。
继承第一步或第二步的权重，仅训练骨干网络的最后一层和ArcFace头部。

WSI方法

关键点摘要：

使用TMA流程训练特征提取器
在训练过程中合成`Other`类WSI
整合不同放大倍数的尺度
根据像素数量对WSI DataFrame排序，并使用多线程处理可极大加快WSI处理速度

推理过程：

集成两种分辨率的特征提取器：3072 resize至768，以及1024（无下采样）。提取特征后应用DTFD-MIL。
为加速图像处理，仅使用每个3072 tile的中心区域，因此只需从WSI中裁剪一次图像块。

模型	分辨率	折数
ConvNeXt Small	3072 resize 768	2
Effv2s	3072 resize 768	3
Effv2s	1024	4

训练过程：

使用TMA流程训练特征提取器。
使用特征提取器提取特征。
使用特征提取器预测所有图像块的'Other'概率，并创建一个`Other池`，包含高'Other'概率的图像块。
在训练DTFD-MIL过程中，每轮动态地从`Other池`中合成一些`WSI`。
- 训练DTFD-MIL可验证TMA流程模型是否真正学到有效特征。若使用ImageNet预训练权重，DTFD-MIL需多达200轮收敛；而使用TMA训练模型，MIL头部仅需1轮至多20轮即可收敛。

一些我没时间尝试但可能有效的方法

WSI的ArcFace
在大规模幻灯片集上预训练的大型Transformer。事实上我在比赛早期尝试过PLIP，但没有深入挖掘。
更好的ArcFace检索策略
更多WSI分辨率。我尝试添加`6144 resize至1024`到最终流程，但notebook崩溃了。
MIL头部的集成
外部数据

讨论与引用

DTFD-MIL是MIL的强大鲁棒基线，基于ABMIL改进。
我认为MIL方法对图像块位置和数量不敏感，这在实验中已观察到。这就是为什么我每轮从`Other池`随机合成WSI，并在提交时减少`1024分辨率无下采样`的数量。该论文也证明了这一点。
我集成多分辨率的原因：查看WHO分类说明会发现，病理学家在不同放大倍数下区分卵巢癌亚型。因此我认为集成多分辨率对WSI分类非常重要。
关于大型Transformer模型：我认为竞赛需要泛化能力更强的模型，大型模型通常更鲁棒。早期我花时间离线测试了PLIP，但CV效果不佳。此外，由于本次选择单人参赛，我必须将有限时间投入到最有把握的方向，用更传统可靠的方式解决任务。

结束语：我的宗师之路

成为宗师的旅程漫长而充满挑战，是我将终身珍藏的经历。衷心感谢过往比赛中队友的支持，以及家人和女友一路以来的坚定鼓励。成为宗师的最后一步——获得单人金牌，格外孤独艰难。这是我第四次冲击单人金牌。如果这次失败，或许需要三年、十年，甚至可能永远失去机会，因为我即将硕士毕业，进入繁忙的公司开启职业生涯。幸运的是，我实现了三年前的梦想，并以宗师称号为我的学生时代画上句号。祝大家新年快乐！

作者主页 Kaggle Grandmaster ForcewithMe 比赛页面 UBC-OCEAN卵巢癌分类竞赛

[8th Place Solution] Understanding Data Before Designing Methods

[第8名解决方案] 设计方法前先理解数据

致谢

引言

全局方法的关键点：

解决方案架构

TMA方法

关键点摘要：

推理过程：

训练过程：

WSI方法

关键点摘要：

推理过程：

训练过程：

一些我没时间尝试但可能有效的方法

讨论与引用

结束语：我的宗师之路

同比赛其他方案