总结

这场比赛特别棘手，需要解决几个关键问题：

幸运的是，我们制定了应对这些问题的策略：

交叉验证

要建立值得信赖的CV，必须尽可能模拟私有测试集的生成方式：

简单的方案是使用Dataset1-WSI1作为验证折，Dataset1-WSI2作为另一折，但这会丢失大量训练样本。我们采用的方法是：

利用元数据将每个WSI的Dataset1切片分为左侧和右侧，形成4折：
- Dataset1 – WSI1 - 左侧
- Dataset1 – WSI1 - 右侧
- Dataset1 – WSI2 - 左侧
- Dataset1 – WSI2 - 右侧
使用staintools为每个训练切片生成9个转换样式后的变体（模仿Dataset3中的9个额外WSI）。当采样切片与验证集来自相同WSI时，改用生成的变体进行训练

原始切片及其9个变体示例

使用两种数据类型：

原始切片（左）与填充切片（右）对比

应用了强增强策略：

染色增强：与验证集同WSI的切片p=1.0，否则p=0.5
几何与色彩变换：RandomRotate90、RandomFlip、ElasticTransform、ShiftScaleRotate、RandomBrightnessContrast、HueSaturationValue等
AutoAugment（类似DETR训练配置）

仅针对血管类别进行两阶段训练：

采用Cascade Mask-RCNN模型，包含以下骨干网络：

在mmdet 2.x框架下训练，最终集成包含折模型和全数据模型。

按以下标准过滤掩码：

我们观察到扩张操作在公共LB上产生显著分数变化，但CV中完全无效。虽然主办方确认公私测试集使用相同验证流程，我们仍无法信任扩张。利用双提交机会：

后续测试表明，单个骨干网络不带扩张的提交即可进入私有金牌区（公共LB仅0.4x）。尽管我们因信任CV做出了正确选择，公共LB的这种行为仍是未解之谜。

感谢阅读，欢迎提问交流。