535. RSNA Screening Mammography Breast Cancer Detection | rsna-breast-cancer-detection
感谢 RSNA 和 Kaggle 团队组织了这次比赛,也感谢我的队友 @ragnar123 和 @harshitsheoran。
最终的提交由 2 个 CNN 模型组成:eca_nfnet_l0 和 tf_efficientnet_b3_ns。
| 模型 | CV | 最佳 Public LB | 最佳 Private LB | 是否用于集成 |
|---|---|---|---|---|
| eca_nfnet_l0 @ 1536 (Harshit) | .488 | .6 | .47 | 0 |
| eca_nfnet_l0 @ 1536 (Ivan) | .4688 | .61 | .46 | 1 |
| tf_efficientnet_b3_ns @ 1536 (Ivan) | .491 | .63 | .48 | 1 |
| tf_efficientnet_b3_ns @ 1920 x 1536 (Martin) | .464 | .6 | .51 | 0 |
当这两个模型结合时,最佳 Public LB 为 0.65,最佳 Private LB 为 0.5。不幸的是,Public 和 Private 之间,或者 CV 和 Private 之间没有相关性。这导致我们选择了错误的提交。最终,我们有 12 个本可以让我们获得金牌的提交,但当时无法确定哪些是正确的。
在推理阶段,我们能够通过以下方式在测试数据上运行更多的折数:首先运行 2 个折数,查看其得分是否高于阈值(约 0.03),只有在高于该阈值时才运行其余的折数。这个技巧效果很好,它允许我们在相关样本上使用更多的折数。
另一个技巧是使用辅助类“困难负样本”通过加权平均来平滑 Cancer 类。这在 CV 上带来了一点提升,但没有根本性的改变。
感谢阅读,祝大家在未来的 Kaggle 征程中好运 👍