31st place solution and some points about the competition

第 31 名解决方案及关于比赛的一些观点

作者: Aristotle.Chen (Master)
排名: 第 31 名
发布时间: 2024-09-07

由于我不是计算机相关专业，以下仅代表我个人观点，欢迎交流讨论

1. ISIC2020 的金牌方案并不更适合本次比赛

我大致基于上一届比赛的 Transformer 设计了约 12 个程序，效果并不理想！

我个人认为可能是我的程序不够好（我将基础模型和数据公开了，以便大家可以自行组合），也可能是图表数据量远大于上一届数据集。（2020: train.csv(2.06 MB), 2024 train-metadata.csv(257.54 MB)）

https://www.kaggle.com/datasets/aristotlechen/gold-ev2
https://www.kaggle.com/datasets/aristotlechen/gold-b0-cross128v
https://www.kaggle.com/datasets/aristotlechen/gold-b0-cross64v
https://www.kaggle.com/datasets/aristotlechen/gold-bce-b0

2. 关于 Magic Noise

由于 Magic Noise 是基于特定数据集的统计属性生成的，而不是真实特征。这导致模型在训练数据上表现良好（实际上是过拟合）

https://www.kaggle.com/code/richolson/isic-2024-magic-noise-for-lb-overfit

但我不知道当 one_hot 和 magic_voice 结合时会发生什么（原谅我没时间了），所以希望某位用户能够完成这一点。

3. 特征组合与集成

特征组合需要大量实验，简单地移除低重要性特征不一定能提高 CV，所以最好使用集成来提高泛化能力，考虑 oof+voter+inference 模型。增加多个投票器比增加层数更有用。

(tip: 我个人见过随机森林、hgb 等，ngb 模型。有更好的结果，但它们总是超时）

4. 参数调整与数据漂移

调整参数以提高 CV 但实际效果反而下降，我尝试了贝叶斯优化和 Optuna 但效果不佳，也许一次只能调整一个参数。

关于检测中的数据漂移：

"Monitoring and Adapting to Concept Drift in Medical Imaging" (2021)
Federica Fornasa, et al.
IEEE Journal of Biomedical and Health Informatics
DOI: 10.1109/JBHI.2021.3062373

"Automated Detection of Data Drift in Medical Imaging using Deep Learning" (2020)
James Brown, et al.
Nature Machine Intelligence
10.1038/s42256-020-0196-0

"Continual Learning in Medical Imaging: A Review" (2021)
Matthias Perkonigg, et al.
Medical Image Analysis
DOI: 10.1016/j.media.2021.102115

（也可能存在数据漂移，我个人认为患者群体中的疾病概率与年龄分布变化可能存在某种相关性，但我没有尝试将其作为变量考虑，主要是因为涉及变量转换失败。）

5. 关于图像处理模型选择

EfficientNet_b0, eva02_small_patch14, edgenext_base

这三个模型的内存占用更加合理，我也尝试了 huge 和 b1, b2, b3，内存总是溢出。

SelecSLS 和 NextViT 显示出严重的过拟合

NextViT 作为一个较新的模型，在某些应用中可能缺乏广泛的验证，参数 tuning 可能比较困难，注意力机制可以帮助模型关注小而关键的区别特征。SelecSLS 缺乏明确的注意力机制，例如不规则边缘、颜色变化容易被忽视，尤其是良性与恶性病变之间的差异可能非常细微。

由于我知识的局限性，欢迎补充！

最后但同样重要的是，感谢所有参与者和组织者，大家在比赛中都熠熠生辉！