590. UBC Ovarian Cancer Subtype Classification and Outlier Detection (UBC-OCEAN) | UBC-OCEAN
这是我第一次参加Kaggle竞赛,一段愉快且富有教育意义的旅程。以下是我的一些关键收获:
1个骨干网络(densenet201)用于实例级特征提取 >> 2个ABMIL模型(TMA和WSI分开)用于包级分类
了解到TMA和WSI在染色、颜色和清晰度上差异显著,我实现了广泛的增强技术。这包括自定义工具,如使用圆形掩码使WSI图块更接近TMA。基于我的LB表现,我认为图像增强是提高模型在TMA上泛化能力的关键步骤。
尽管如此,在WSI图块上训练的模型在TMA上的表现仍不如我的预期。因此我使用了领域对抗训练技术,从经典的DANN、启发式领域自适应到toAlign。关键思想是利用有限的TMA图像帮助模型提取更多任务相关且更少领域相关的特征,而不泄露它们的标签。这是我LB分数提升的第二关键步骤。
训练期间,我使用TMA准确率积极监控模型在TMA上的迁移能力:
相关资源:
Domain-Adversarial Training of Neural Networks: https://arxiv.org/abs/1505.07818
Heuristic Domain Adaptation: https://arxiv.org/abs/2011.14540
ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation: https://arxiv.org/abs/2106.10812
我使用了最基本的注意力MIL模型,带有自注意力核,其影响我不太清楚。基于我的观察,如果特征提取器训练良好,模型在公共LB上使用基本MIL(最大/平均池化)表现足够好。然而,AB-MIL在我的本地验证集上提供了更好的准确率,因此理论上更稳定和优越的性能。
相关资源:
Attention-based Deep Multiple Instance Learning: https://arxiv.org/abs/1802.04712
Kernel Self-Attention in Deep Multiple Instance Learning: https://arxiv.org/abs/2005.12991
我的笔记本链接:
https://www.kaggle.com/code/yannan90/ubc-submit-att