返回列表

14th place solution

625. RSNA 2024 Lumbar Spine Degenerative Classification | rsna-2024-lumbar-spine-degenerative-classification

开始: 2024-05-17 结束: 2024-10-08 医学影像分析 数据算法赛
第 14 名解决方案 - RSNA 2024 腰椎退行性分类

第 14 名解决方案

竞赛: RSNA 2024 腰椎退行性分类 (RSNA 2024 Lumbar Spine Degenerative Classification)

作者: Iafoss (Grandmaster)

团队成员: TmT, HB, Yurnero, Yusef A.

发布时间: 2024-10-09

模型 (Models)

  • 单阶段多条件 (s12): 0.412 CV
  • 多阶段多条件 (s1+s2): 0.404 CV
  • 多阶段单条件 (@tamotamo 在此分享 链接): 0.400 CV

数据 (Data)

输入采用 CLAHE 归一化。我投影了组织提供的特定来源的兴趣点,并能在每个输入中定位所有 25 个点。对于两阶段设置,我使用了公开共享的关键点标注。对于外部数据,我在最初的实验和单阶段模型预训练中使用了 Spider(用于特定椎骨和椎间盘分割的数据集)。

单阶段模型 (s12)

架构: 基于注意力的聚合(类似于 Bird-call 竞赛中使用的 SED):我预测 3d 体素网格(在 reduced res 对应于 1/token size)的注意力权重和预测目标。然后我在注意力上应用空间 softmax,并相应地加权目标,沿空间维度求和。这产生了标量 Bx25 预测。我使用竞赛指标近似作为损失函数。此外,我考虑使用高斯分布近似标注关键点来对注意力进行辅助损失。

作为替代方案,我考虑了独立应用于每个切片的 2 个交叉注意力层解码器。解码器将 25 个可学习查询作为输入,每个查询预测目标、xy 位置以及该切片对特定目标有效的概率 p。最终预测是基于 p 加权的目标和 xy。损失包括 p 的 CE、目标的竞赛指标近似以及 xy 的 MSE。这里的想法是,尝试预测特定关键点位置的解码器也在聚合提供目标类别的信息。这种方法的表现与基于注意力的聚合相似。

骨干网络 (Backbone): 由于模型必须能够预测视觉上难以区分的椎骨的具体级别,它应该能够访问全局图像内容(即基于 ViT 的架构更可取),并且在早期使用 Spider 的实验中,我发现 DINOv2(带有 registers)可以可靠地分配椎骨级别。因此,我使用了 DINOv2 B 骨干网络,输入帧序列为 (N,3,H,W)。对于侧视图,骨干网络 augmented with 零初始化的 LSTM 适配器 以执行序列混合,并在 Spider 分割数据集上进行预训练。对于轴状视图,我在骨干网络后添加了一个 LSTM 混合层

图像设置:侧向输入为 16x448x448,轴向输入为 48x332x332。如果序列较短,则重复图像。

两阶段多条件 (s1+s2)

s1 是一个简单的单切片分割模型,应用于中心切片,并训练以预测公开共享的 10 个关键点。我使用了 Sagittal T1 + Sagittal T2/STIR 来源,然后重新投影相应的坐标以在 Axial T2 中找到适当的切片,并交叉检查来源并在侧视图中丢弃点。我不在轴向视图上做 s1,因为多个组使数据变得混乱,且任务比侧视图中的点检测要难得多。骨干网络再次使用 DINOv2,因为我需要预测 10 个可区分的关键点。使用 10 个关键点而不是 5 个,我可以推导出框的方向和大小。输入大小 448x448。

然后我对每个来源应用 s2。在侧视图中,我在适当的兴趣区域周围裁剪一小堆框。结果,我为侧视图生成了 5 堆图像 crops 5x16x3x192x192。轴向裁剪基于对应于投影关键点的平面完成,侧向不那么激进。所以我生成了 5x8x3x320x320 的序列(确保 group=view angle 对于所有选定的图像是相同的,如果选定的切片数量不足则复制图像)。模型对于侧视图是简单的 ConvNeXtv2 nano + LSTM 混合层 + 序列上的 concat pooling + head,而在轴向视图中我使用 DINOv2。损失函数使用竞赛指标近似。

聚合 (Aggregation)

我对每个条件的每个模型使用简单的加权(应用于 logits)。下面的矩阵显示了 7 个来源(s2 Sagittal T2/STIR, s2 Sagittal T1, s2 Axial T2, s12 Sagittal T2/STIR, s2 Sagittal T1, s2 Axial, Multi-stage single-condition)对 5 个目标(SCS, L NFN, R NFN, L SS, RSS)的贡献。某些来源对特定目标尤为重要。

来源 / 目标 SCS L NFN R NFN L SS RSS
s2 Sagittal T2/STIR 0.1228 0.0025 0.0031 0.0612 0.1021
s2 Sagittal T1 0.0549 0.2573 0.1362 0.0484 0.1198
s2 Axial T2 0.1712 0.0790 0.0269 0.2366 0.1519
s12 Sagittal T2/STIR 0.1308 0.0068 0.0373 0.1285 0.0949
s2 Sagittal T1 (2) 0.0161 0.1436 0.2533 0.0101 0.0072
s2 Axial 0.0689 0.0220 0.0208 0.0797 0.1492
Multi-stage single-condition 0.4353 0.4888 0.5225 0.4354 0.3749

CV 0.379, LB 0.35/0.41

同比赛其他方案