第20名解决方案 - UBC-OCEAN

作者：Bartley 和 kevin:)
发布时间：2024-01-04

虽然由我发布这份方案，但这是我和 @kevin0912 共同努力的成果。感谢UBC主办这场比赛，这是一次非常有趣的竞赛体验，处理如此大尺寸的图像也令人印象深刻！

我们的解决方案基于多实例学习（MIL）架构结合注意力池化。我们使用了 efficientnet_b2、tf_efficientnetv2_b2.in1k 和 regnety_016.tv2_in1k 三种骨干网络的集成模型，在8张1280×1280尺寸的图像序列上进行训练，并忽略 other 类别。推理时采用轻量级测试增强（TTA）：包括旋转90度、翻转、转置和随机图像顺序。

核心策略

高效分块

我们基于最暗的中值像素值从全切片图像（WSI）中选择图像块。为提高处理效率，采用3个CPU核心的并行处理，并使用较小缩略图预筛选裁剪位置。该预筛选机制会选择切片上最大的组织区域，忽略较小的组织区域。

对于组织微阵列（TMA），我们从中心区域裁剪5张2560×2560尺寸的图像，并缩放到1280×1280以匹配WSI的放大倍数。

尽管效率较高，但该方法的局限性在于可能无法从每张图像中提取信息丰富的图像块。我们也曾尝试使用基于~150个分割掩码训练的轻量级图像块分类器，但未能提升图像块选择效果。

模型训练

我们使用强数据增强和随机权重平均（SWA）训练每个模型20-30个epoch。大多数模型在所有WSI和TMA上训练，部分模型使用了从补充掩码数据集合成的TMA（称为TMA Planets）。我们本可能进一步探索TMA Planets，但对掩码质量存疑，且其数量相对WSI总数较少。

OOF重标记与样本剔除

根据 Noli Alonso的建议，我们剔除了约5%的图像并对8张图像重新标记。采用的方法与 PANDA竞赛第一名方案中的去噪方法类似。

relabel_dict = {
    '15583': 'MC',
    '51215': 'LGSC', 
    '21432': 'CC',
    '50878': 'LGSC',
    '19569': 'MC',
    '38097': 'EC',
    '29084': 'CC',
    '63836': 'LGSC',
}

外部数据

我们唯一使用的外部数据集是卵巢癌组织病理学数据集（SFU）。该数据集包含来自6个不同病理学中心的80张40倍放大倍数的WSI。

类别分布：{'HGSC': 30, 'CC': 20, 'EC': 11, 'MC': 10, 'LGSC': 9}

未采用的技术

更大型骨干网络
轻量级图像块分类器
染色归一化（staintools、stainnet等）
JPEG格式图像

开发框架

Pytorch Lightning（模型训练）
Weights & Biases（实验记录）
Timm（骨干网络）

20th Place Solution - UBC-OCEAN