返回列表

19th Place Solution

535. RSNA Screening Mammography Breast Cancer Detection | rsna-breast-cancer-detection

开始: 2022-11-28 结束: 2023-02-27 医学影像分析 数据算法赛
第19名解决方案

第19名解决方案

作者: Ivan Aerlic (Grandmaster) | 发布日期: 2023-03-01

感谢 RSNA 和 Kaggle 团队组织了这次比赛,也感谢我的队友 @ragnar123@harshitsheoran

最终的提交由 2 个 CNN 模型组成:eca_nfnet_l0 和 tf_efficientnet_b3_ns。

模型 CV 最佳 Public LB 最佳 Private LB 是否用于集成
eca_nfnet_l0 @ 1536 (Harshit) .488 .6 .47 0
eca_nfnet_l0 @ 1536 (Ivan) .4688 .61 .46 1
tf_efficientnet_b3_ns @ 1536 (Ivan) .491 .63 .48 1
tf_efficientnet_b3_ns @ 1920 x 1536 (Martin) .464 .6 .51 0

当这两个模型结合时,最佳 Public LB 为 0.65,最佳 Private LB 为 0.5。不幸的是,Public 和 Private 之间,或者 CV 和 Private 之间没有相关性。这导致我们选择了错误的提交。最终,我们有 12 个本可以让我们获得金牌的提交,但当时无法确定哪些是正确的。

什么方法有效?

  • 标签平滑
  • 辅助类(Bi-raids 2, Benign, Invasive, Biopsy)
  • 加权 BCELoss
  • Mosaic 增强(以类别最大值作为目标)
  • Mixup 增强(以类别最大值作为目标)
  • ROI 裁剪(训练期间)

在推理阶段,我们能够通过以下方式在测试数据上运行更多的折数:首先运行 2 个折数,查看其得分是否高于阈值(约 0.03),只有在高于该阈值时才运行其余的折数。这个技巧效果很好,它允许我们在相关样本上使用更多的折数。

另一个技巧是使用辅助类“困难负样本”通过加权平均来平滑 Cancer 类。这在 CV 上带来了一点提升,但没有根本性的改变。

感谢阅读,祝大家在未来的 Kaggle 征程中好运 👍

同比赛其他方案