459. RSNA-MICCAI Brain Tumor Radiogenomic Classification | rsna-miccai-brain-tumor-radiogenomic-classification
首先恭喜所有的获奖者!同时感谢 Kaggle 和 RSNA 举办这次比赛,让我们有机会研究如此有趣的问题。
与顶级解决方案通常的样子相反,我的最终方案是我最开始建立的最初基线之一。没有模型融合,没有复杂/巨大的模型,也没有复杂的训练技巧。
正如你们许多人所见,在上个月队名被设置为“我讨厌这场比赛”,我将在下面解释让我讨厌在这场比赛中花费时间的原因。
使用相同的参数、硬件、固定的所有随机种子、相同的训练数据和相同的验证集训练同一个模型,会给出不同的 AUCROC 分数。我记得当我训练 EF-b0 超过 100 次(所有设置相同)时,我得到的 CV 分数在 0.53 到 0.62 之间,标准差很高(记不清了)。训练 5 折 100 次,大大降低了分数的标准差,我得到的分数(平均 5 折后)在 0.52 到 0.56 之间。
你猜怎么着?为了判断任何模型/想法/方法,我曾经训练 100 个模型(每个模型训练 20 次 x 5 折)。我根据分数平均值对实验进行排名。然后,我选择了前 5 个想法+模型,每个想法运行 250 个模型(每个模型训练 50 次 x 5 折。第二阶段的折数与第一阶段不同)。之后,我根据 250 个模型的平均分数重新对想法进行排名(我对每个想法/模型进行 OOF 预测,并平均 50 个 OOF)。
请注意,我在本节中提到的一些“模型”代表了 4 个经过训练的模型(分别针对 "FLAIR"、"T1w"、"T1wCE"、"T2w")。每当我想尝试一个想法时,我都会将其应用于使用所有 4 种类型数据的 CNN 模型,我训练 4 个不同的模型并平均这 4 个模型。我在大多数最终模型中排除了“T2w”数据(我认为超过 50% 的模型没有使用“T2w”数据)。无论如何,让我们跳过这部分,因为我尝试的想法和模型完全是随机的。事实上,我尝试的大多数想法都是我闭上眼睛睡觉时想到的。老实说,这场比赛毁了我的许多夜晚,让我觉得自己像个愚蠢的失败者。