551. AMP®-Parkinsons Disease Progression Prediction | amp-parkinsons-disease-progression-prediction
首先,我要感谢Kaggle和AMP PD组织了这场精彩的比赛。我也要感谢所有参与本次比赛的Kaggle用户。我非常高兴能够获得我的第一枚金牌,同时也赢得了奖金。
我的解决方案很简单,主要由三个功能组成。
正如许多人所指出的,我将患者分为两组,每组针对不同的就诊间隔(6个月或12个月)进行了优化。
关键点之一是我们不仅需要关注第6个月,还需要关注第18个月。有些患者缺失第6个月的数据,但第18个月的数据存在,这类患者并不健康。
通过使用累积最小值函数,我将第6个月或第18个月出现的患者视为不健康患者。
在查看B组(不健康组)的数据时,我发现了几种模式。蛋白质采集频率和蛋白质信息与症状的严重程度相关。我根据蛋白质采集频率和蛋白质信息生成了多个标签,并将其作为特征使用。
最终采用了以下9个标签。
最初,我也尝试使用这些特征的LightGBM,但LB分数变差了,因此我没有在最终模型中使用它。在最终模型中,我使用这些特征通过网格搜索获得系数(严重程度)。
由于训练数据(248名患者)的样本量较小,某些标签在训练数据(248名患者)上表现更好,但在LB(50名患者)上表现更差。
在我进行的各种实验中,我决定只采用那些在训练集和LB上均有所改善的标签(共298名患者)。
我认为这将是一个更稳健的模型。结果最终分数也更加稳定。