UBC-OCEAN 第5名解决方案
UBC-OCEAN 第5名解决方案
团队: Rist 40人
排名: 第5名
作者: sakaku, kapenon, tascj
发布时间: 2024年1月6日
首先,我要向Kaggle团队主办这场精彩比赛表示感谢,同时也要感谢UBC的组织者。我也想对所有全力以赴的参赛者们表示赞赏。特别感谢我的队友@kapenon和@tascj0,感谢他们不知疲倦的努力和富有洞察力的讨论。
解决方案概述
最终提交方案总结:
- 推理包含两个阶段:
- 区块选择模型 -> 仅全切片图像(WSI)
- 分类模型 -> WSI和组织微阵列(TMA)
分割模型的训练细节(主要针对WSI,TMA直接中心裁剪):
- 区块分类辅助模型(推理未使用)
- 在1536x1536尺寸上随机裁剪区块,排除背景
- 数据增强:随机水平和垂直翻转、随机旋转、RandAugment、随机灰度化、随机擦除
- WSI标签作为区块标签
- ConvNeXt-base架构
- 6分类任务(Hubmap外部数据标记为"Other")
- 分割辅助模型(推理未使用)
- 使用主办方提供的掩码
- 肿瘤二分类
- 2倍放大倍数
- SEResNeXt101 UNet架构
- 区块选择分割模型(推理使用)
- 标签生成
- 使用第一阶段模型对所有区块进行推理,保存WSI类别的预测概率
- 使用第二阶段模型对所有WSI进行推理
- 在2倍放大倍数下创建热力图
- 热力图真实标签 = 0.5分类置信度 + 0.5肿瘤置信度
- 训练
生成的热力图示例:
分割模型推理示例:
区块分类模型的训练细节(推理使用)
- 在1536x1536尺寸上随机裁剪区块,排除背景
- 数据增强:随机水平和垂直翻转、随机旋转、RandAugment、随机灰度化、随机擦除 + 染色归一化
- WSI标签作为区块标签
- ConvNeXt-base、ConvNeXt-large、EVA(448x448尺寸)
- 6分类任务(Hubmap、Camelyon16、Camelyon17等数据集的区块标记为"Other")
- 数据挖掘:
- 第一轮训练
- 预测所有前景区块:
- 置信度<0.3的区块在第二轮中被伪标记为"Other"
- 置信度0.3-0.6的区块被忽略
- 置信度>0.6的区块伪标记为WSI标签
- 第二轮训练
推理细节:
WSI推理流程
- 区块选择
- 在2倍放大倍数下预测热力图,选择置信度最高的5个区块用于分类
- 分类
- 预测5个区块并取平均值作为WSI预测结果
- 染色归一化作为测试时增强(TTA)
- 大尺寸WSI图像的处理细节请参考提交笔记本
TMA推理流程
- 中心裁剪3072x3072尺寸的区块
- 调整至1536x1536尺寸
- 使用分类模型进行预测
- 染色归一化作为测试时增强(TTA)
使用的外部数据集及其许可:
有效的策略
- 染色归一化
- 数据挖掘(伪标签)
- 用于识别有价值区块的分割模型
- 将外部数据集作为'Other'类别使用
- ConvNeXt和EVA02模型
- 多尺度集成
致谢
我们要感谢Kaggle支持系统以及Rist株式会社的情感支持。