返回列表

15th Place Solution(PB 0.173 Solution)

623. ISIC 2024 - Skin Cancer Detection with 3D-TBP | isic-2024-challenge

开始: 2024-06-27 结束: 2024-09-06 医学影像分析 数据算法赛
第 15 名解决方案 (PB 0.173 方案)

第 15 名解决方案 (PB 0.173 方案)

作者: Youhei Tomio
发布日期: 2024-09-07
竞赛排名: 第 15 名

大家好,我是 Youhei Tomio。
感谢主办方组织本次竞赛。

我使用 PB 171 代码本取得了第 15 名的排名,但我还有一个 PB 173 的代码本。方法上几乎没有区别。主要区别在于使用的 timm 图像模型类型,以及在将图像模型预测纳入表格模型时是否存在目标泄漏。在 PB 171 解决方案中存在目标泄漏,但在 PB 173 解决方案中没有。这里我将发布 PB 173 解决方案,它提供了更优越的方法。
image

解决方案总结

image

图像模型

我从 timm 中选择了六个模型,并将它们的预测纳入表格数据中。
数据增强和 TTA 仅添加了公共代码本中存在的内容。

模型 CV 输入尺寸
tf_efficientnet_b0_ns 0.1545 384
tf_efficientnetv2_m.in21k 0.1455 224
coatnet_rmlp_2_rw_224.sw_in1k 0.1555 224
eva02_small_patch14_336.mim_in22k_ft_in1k 0.1602 336
convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_320 0.1644 224
swin_large_patch4_window7_224.ms_in22k_ft_in1k 0.1594 224

我使用了 三重分层无泄漏 KFold 交叉验证

表格模型

我使用了 3 个模型:LightGBM, CatBoost, XGBoost。我还应用了过采样和欠采样,对所有模型直接使用 @greysky 提供的比率。

特征工程

我利用了 @richolson 发布的“丑小鸭特征”。但是,我没有在 LightGBM 模型中包含包含图像数据信息的特征,而是将它们纳入到其他 2 个模型中。LightGBM 模型倾向于在图像数据上过拟合。

我从 @richolson 发布的“丑小鸭特征”中选择了几列,并使用 pyod 库 中的 HBOS 算法创建了基于无监督学习的“丑小鸭特征”。
这种 HBOS 方法将 LB 分数提高了 +0.001。

这是一个显示基于目标的 HBOS 分布差异的直方图。
image

验证策略

我使用了上一届竞赛推荐的 三重分层无泄漏 KFold 交叉验证。但是,由于 LB 和 CV 之间的相关性较低,我不信任 CV 分数。因此,我主要依赖 LB 分数。此外,在每次更新后,我通过更改种子值并观察 LB 分数的变化来定期检查模型的鲁棒性。

我很幸运地获得了金牌。感谢所有分享各种解决方案的 Kagglers。非常感谢!

同比赛其他方案