623. ISIC 2024 - Skin Cancer Detection with 3D-TBP | isic-2024-challenge
我要感谢 Kaggle 组织了这样有趣的比赛,同时也想感谢那些分享了精彩基线笔记本的人们。非常感谢我的队友 @stefanoclss、@alejopaullier、@yyyu54 和 @kuixizhu 尝试他们的想法。
我们改进了基线代码(笔记本 1 和 笔记本 2),并使用最佳 CV 模型和最佳 LB 模型进行最终提交。然而,两个模型的分数均为:公有榜 0.183,私有榜 0.171。
glcm_features: 使用 GLCM(灰度共生矩阵)从图像中提取特征。
KNN 特征: 计算每个患者最近(K = 5)数据点的数值特征平均值,以寻找“丑小鸭”。
向训练数据添加高斯噪声: 向 OOF 预测添加噪声,以防止因使用早停法而导致 CV 分数过度优化。
图像模型:
| 编号 | 模型名称 | CV 分数 | LB 分数 |
|---|---|---|---|
| 1 | EfficientViT-v2 | 0.156 | 0.153 |
| 2 | EdgeNeXT-base | 0.156 | 0.155 |
| 3 | Efficient-B2 | 0.1493 | 0.154 |
| 4 | Efficient-B0 | 0.151 | 0.144 |
| 5 | EVE02 | 0.154 | 0.154 |
三重分层分割 (参考链接)
我们在最佳 LB 模型的基础上添加了以下处理:
年龄特征: 添加一些利用同一患者内年龄和 tbp_tile_type 差异的特征。
quartiles_feature: 为数值列添加四分位数。
特征选择: 分别为 CatBoost、LightGBM 和 XGBoost 提取约 50 到 100 个重要特征。使用此特征训练了三个模型。
・使用过去的数据
・伪标签
・FTTransformer (CV: 0.178, LB: 0.179, 私有分数:0.165)
这次比赛对我有特殊意义,因为比赛期间我的母亲被诊断出患有癌症。我衷心希望她早日康复,也希望医学取得突破,从而改善他人的癌症早期检测。