623. ISIC 2024 - Skin Cancer Detection with 3D-TBP | isic-2024-challenge
大家好,
我想感谢组织者举办这次比赛。代表我的团队,我想分享我们的方法:
我们尝试了三种不同的 CV 策略:(1) 基于 patient_id 的 GroupKFold,(2) 基于 patient_id 并按归属机构(医院)分层的 GroupKFold。然而,这两种 CV 有时与排行榜(LB)不相关。因此,我们提出了第三种也是最终的 CV (3),它模拟了测试集中仅出现两家新医院的场景,正如该讨论所述。具体来说,我们在来自五家医院的数据上训练,并在七家医院的数据上预测。设计此策略的直觉是我们想要评估模型在旧医院和新医院上的性能,因为不同医院之间的数据和标签可能不同(由于测量误差、医生偏差等)。我们发现第三种 CV 与公开排行榜之间存在非常高的相关性,因此我们直到最后都使用了这个 CV。
我们的解决方案是三个基于树的模型的加权集成。在每个基于树的模型中,我们使用元数据和 CNN 模型的预测作为特征。对于 CNN 模型,我们使用变体骨干网络训练了多头模型(1 个用于分类目标,1 个用于预测 lesion_id)。
1. CNN 模型:
lesion_id 的样本比其他样本更可疑。因此,我们通过向 CNN 添加另一个头来利用这个 lesion_id 信息。与仅使用分类目标相比,这有助于提高 CNN 的 PAUC。2. 基于树的模型:
patient_id、tbp_lv_location 和 attribution 分组和聚合信息。3. 最终提交:
4. 无效的方法:
我们每天都有大量工作要完成,我们还有每日会议来回顾已完成的工作并确定接下来需要做什么,这真的有助于让我们保持正轨并继续前进。
这次比赛是一段非常棒的旅程,我从中学到了很多。我想向 Duc 先生 @mathormad、Tu 先生 @minhtu123 和 Linh 女士 @linhlethuy 表示诚挚的感谢,感谢他们教导我不懈地帮助我修复 bug 长达数小时甚至数天。我真的很感激。
我也要感谢 Kagglers 宝贵的讨论和见解。
努力终有回报!