返回列表

3rd place solution

551. AMP®-Parkinsons Disease Progression Prediction | amp-parkinsons-disease-progression-prediction

开始: 2023-02-16 结束: 2023-05-18 药物研发 数据算法赛

第三名解决方案

首先,我要感谢Kaggle和AMP PD组织了这场精彩的比赛。我也要感谢所有参与本次比赛的Kaggle用户。我非常高兴能够获得我的第一枚金牌,同时也赢得了奖金。

我的解决方案很简单,主要由三个功能组成。

1. 分组

正如许多人所指出的,我将患者分为两组,每组针对不同的就诊间隔(6个月或12个月)进行了优化。
关键点之一是我们不仅需要关注第6个月,还需要关注第18个月。有些患者缺失第6个月的数据,但第18个月的数据存在,这类患者并不健康。
通过使用累积最小值函数,我将第6个月或第18个月出现的患者视为不健康患者。

[A组:健康]

  • 最小就诊间隔为12个月或更长的患者

[B组:不健康]

  • 最小就诊间隔为6个月或更短的患者

2. 标注(主要针对B组)

在查看B组(不健康组)的数据时,我发现了几种模式。蛋白质采集频率和蛋白质信息与症状的严重程度相关。我根据蛋白质采集频率和蛋白质信息生成了多个标签,并将其作为特征使用。

最终采用了以下9个标签。

[症状更严重]

  • 蛋白质在第6个月采集
  • 蛋白质在第6个月采集,并在第12个月再次采集
  • "UniPort"唯一数量较少(约最低的20%)
  • "UniPort"唯一数量较少(约最低的10%)

[症状较轻]

  • 蛋白质在第6个月未采集
  • 蛋白质在第6个月采集但在第12个月未采集
  • 蛋白质在第6个月未采集,但在第18个月采集
  • "UniPort"唯一数量较多且"Peptide"相对于前一次测量的变化较大(约最高的20%)
  • "UniPort"唯一数量较多且"Peptide"相对于前一次测量的变化较大(约最高的10%)

3. 建模

最初,我也尝试使用这些特征的LightGBM,但LB分数变差了,因此我没有在最终模型中使用它。在最终模型中,我使用这些特征通过网格搜索获得系数(严重程度)。
由于训练数据(248名患者)的样本量较小,某些标签在训练数据(248名患者)上表现更好,但在LB(50名患者)上表现更差。
在我进行的各种实验中,我决定只采用那些在训练集和LB上均有所改善的标签(共298名患者)。
我认为这将是一个更稳健的模型。结果最终分数也更加稳定。

同比赛其他方案