625. RSNA 2024 Lumbar Spine Degenerative Classification | rsna-2024-lumbar-spine-degenerative-classification
输入采用 CLAHE 归一化。我投影了组织提供的特定来源的兴趣点,并能在每个输入中定位所有 25 个点。对于两阶段设置,我使用了公开共享的关键点标注。对于外部数据,我在最初的实验和单阶段模型预训练中使用了 Spider(用于特定椎骨和椎间盘分割的数据集)。
架构: 基于注意力的聚合(类似于 Bird-call 竞赛中使用的 SED):我预测 3d 体素网格(在 reduced res 对应于 1/token size)的注意力权重和预测目标。然后我在注意力上应用空间 softmax,并相应地加权目标,沿空间维度求和。这产生了标量 Bx25 预测。我使用竞赛指标近似作为损失函数。此外,我考虑使用高斯分布近似标注关键点来对注意力进行辅助损失。
作为替代方案,我考虑了独立应用于每个切片的 2 个交叉注意力层解码器。解码器将 25 个可学习查询作为输入,每个查询预测目标、xy 位置以及该切片对特定目标有效的概率 p。最终预测是基于 p 加权的目标和 xy。损失包括 p 的 CE、目标的竞赛指标近似以及 xy 的 MSE。这里的想法是,尝试预测特定关键点位置的解码器也在聚合提供目标类别的信息。这种方法的表现与基于注意力的聚合相似。
骨干网络 (Backbone): 由于模型必须能够预测视觉上难以区分的椎骨的具体级别,它应该能够访问全局图像内容(即基于 ViT 的架构更可取),并且在早期使用 Spider 的实验中,我发现 DINOv2(带有 registers)可以可靠地分配椎骨级别。因此,我使用了 DINOv2 B 骨干网络,输入帧序列为 (N,3,H,W)。对于侧视图,骨干网络 augmented with 零初始化的 LSTM 适配器 以执行序列混合,并在 Spider 分割数据集上进行预训练。对于轴状视图,我在骨干网络后添加了一个 LSTM 混合层。
图像设置:侧向输入为 16x448x448,轴向输入为 48x332x332。如果序列较短,则重复图像。
s1 是一个简单的单切片分割模型,应用于中心切片,并训练以预测公开共享的 10 个关键点。我使用了 Sagittal T1 + Sagittal T2/STIR 来源,然后重新投影相应的坐标以在 Axial T2 中找到适当的切片,并交叉检查来源并在侧视图中丢弃点。我不在轴向视图上做 s1,因为多个组使数据变得混乱,且任务比侧视图中的点检测要难得多。骨干网络再次使用 DINOv2,因为我需要预测 10 个可区分的关键点。使用 10 个关键点而不是 5 个,我可以推导出框的方向和大小。输入大小 448x448。
然后我对每个来源应用 s2。在侧视图中,我在适当的兴趣区域周围裁剪一小堆框。结果,我为侧视图生成了 5 堆图像 crops 5x16x3x192x192。轴向裁剪基于对应于投影关键点的平面完成,侧向不那么激进。所以我生成了 5x8x3x320x320 的序列(确保 group=view angle 对于所有选定的图像是相同的,如果选定的切片数量不足则复制图像)。模型对于侧视图是简单的 ConvNeXtv2 nano + LSTM 混合层 + 序列上的 concat pooling + head,而在轴向视图中我使用 DINOv2。损失函数使用竞赛指标近似。
我对每个条件的每个模型使用简单的加权(应用于 logits)。下面的矩阵显示了 7 个来源(s2 Sagittal T2/STIR, s2 Sagittal T1, s2 Axial T2, s12 Sagittal T2/STIR, s2 Sagittal T1, s2 Axial, Multi-stage single-condition)对 5 个目标(SCS, L NFN, R NFN, L SS, RSS)的贡献。某些来源对特定目标尤为重要。
| 来源 / 目标 | SCS | L NFN | R NFN | L SS | RSS |
|---|---|---|---|---|---|
| s2 Sagittal T2/STIR | 0.1228 | 0.0025 | 0.0031 | 0.0612 | 0.1021 |
| s2 Sagittal T1 | 0.0549 | 0.2573 | 0.1362 | 0.0484 | 0.1198 |
| s2 Axial T2 | 0.1712 | 0.0790 | 0.0269 | 0.2366 | 0.1519 |
| s12 Sagittal T2/STIR | 0.1308 | 0.0068 | 0.0373 | 0.1285 | 0.0949 |
| s2 Sagittal T1 (2) | 0.0161 | 0.1436 | 0.2533 | 0.0101 | 0.0072 |
| s2 Axial | 0.0689 | 0.0220 | 0.0208 | 0.0797 | 0.1492 |
| Multi-stage single-condition | 0.4353 | 0.4888 | 0.5225 | 0.4354 | 0.3749 |
CV 0.379, LB 0.35/0.41