返回列表

#5: Find the control group

551. AMP®-Parkinsons Disease Progression Prediction | amp-parkinsons-disease-progression-prediction

开始: 2023-02-16 结束: 2023-05-18 药物研发 数据算法赛
#5: 寻找对照组

#5: 寻找对照组

作者:AmbrosM(Kaggle Grandmaster)
发布时间:2023-05-19

当我几个小时前选定最后两个提交方案时,我选择了:

  • 一个仅使用月份数据进行预测的模型(不使用肽和蛋白质),公共排行榜得分为54.7
  • 另一个模型额外使用了肽和蛋白质,交叉验证效果更好,但公共排行榜得分较差(55.3)

结果表明,公共排行榜是比交叉验证更好的指标,而肽/蛋白质特征工程毫无用处。

识别对照组

如果我们绘制每个月份的updrs评分中位数,会发现12的倍数月份(网格线上的青色标记)通常低于非12倍数月份(网格线之间的洋红色标记)。这绝非巧合。

b1

248名患者与其updrs评估月份的散点图揭示了三个患者群体:

绿色群体的患者首次就诊月份为:0、3、6、9、12月
橙色群体的患者首次就诊月份为:0、6、12、18、24月,最后一次就诊在60月
红色群体的患者首次就诊月份为:0、12、24月
b2

如果我们绘制每位患者随时间的updrs评分,会发现各群体之间存在差异。特别是红色群体的updrs评分最低,这意味着这些人最健康,且很少对他们进行updrs_4测试。

我们可以假设红色群体是对照组(没有帕金森病的人群),实验人员决定每年只测试一次对照组,并跳过该群体的updrs_4测试。真正的患者(绿色和橙色群体)则接受更频繁的测试和全部四项updrs测试。

b3

结论:我们可以根据患者首次非零visit_month来区分对照组和真实患者:如果首次非零visit_month小于12,则为真实患者;如果首次非零visit_month等于12,则该人属于健康对照组。这种区分对updrs评分具有很高的预测价值。

模型

该模型仅有两个特征:

  • 患者所属的群体
  • 预测的月份

根据群体不同,模型预测线性回归或等渗回归:

b4

经验教训

  • 彻底的探索性数据分析很重要,且必须针对数据集进行调整。自动化EDA工具无法发现隐藏信息。
  • 不寻常的指标(smape加一)需要不寻常的方法。
  • 如果训练数据集较小,简单模型效果最好。
  • 医疗数据稀缺且昂贵。如果我们未能证明蛋白质与帕金森症状之间的联系,这并不意味着不存在。这仅意味着还需要说服另外一千名患者参与一项为期五年的研究,我们可能会在2028年看到后续竞赛...
  • 在生物学和医学中,我们通常寻找非常微弱的影响:蛋白质测量不精确,updrs评分取决于患者和医生的情绪。如果有人期望SMAPE分数远低于50,那这种期望是不现实的。
同比赛其他方案