19th Place Solution

第19名解决方案

作者: Ivan Aerlic (Grandmaster) | 发布日期: 2023-03-01

感谢 RSNA 和 Kaggle 团队组织了这次比赛，也感谢我的队友 @ragnar123 和 @harshitsheoran。

最终的提交由 2 个 CNN 模型组成：eca_nfnet_l0 和 tf_efficientnet_b3_ns。

模型	CV	最佳 Public LB	最佳 Private LB	是否用于集成
eca_nfnet_l0 @ 1536 (Harshit)	.488	.6	.47	0
eca_nfnet_l0 @ 1536 (Ivan)	.4688	.61	.46	1
tf_efficientnet_b3_ns @ 1536 (Ivan)	.491	.63	.48	1
tf_efficientnet_b3_ns @ 1920 x 1536 (Martin)	.464	.6	.51	0

当这两个模型结合时，最佳 Public LB 为 0.65，最佳 Private LB 为 0.5。不幸的是，Public 和 Private 之间，或者 CV 和 Private 之间没有相关性。这导致我们选择了错误的提交。最终，我们有 12 个本可以让我们获得金牌的提交，但当时无法确定哪些是正确的。

什么方法有效？

标签平滑
辅助类（Bi-raids 2, Benign, Invasive, Biopsy）
加权 BCELoss
Mosaic 增强（以类别最大值作为目标）
Mixup 增强（以类别最大值作为目标）
ROI 裁剪（训练期间）

在推理阶段，我们能够通过以下方式在测试数据上运行更多的折数：首先运行 2 个折数，查看其得分是否高于阈值（约 0.03），只有在高于该阈值时才运行其余的折数。这个技巧效果很好，它允许我们在相关样本上使用更多的折数。

另一个技巧是使用辅助类“困难负样本”通过加权平均来平滑 Cancer 类。这在 CV 上带来了一点提升，但没有根本性的改变。

感谢阅读，祝大家在未来的 Kaggle 征程中好运 👍

团队成员

Ivan Aerlic (Grandmaster) Team Leader Harshit Sheoran (Grandmaster) Collaborator Martin Kovacevic Buvinic (Grandmaster) Collaborator

第19名解决方案

什么方法有效？

团队成员

同比赛其他方案