返回列表

13th place solution

551. AMP®-Parkinsons Disease Progression Prediction | amp-parkinsons-disease-progression-prediction

开始: 2023-02-16 结束: 2023-05-18 药物研发 数据算法赛
第13名解决方案

第13名解决方案

作者:Fnoa (MASTER) | 排名:第13名 | 创建时间:2023-05-19

首先,祝贺获胜者们!

我的解决方案基于LGB模型,我为每个预测时间点(0, 6, 12, 24)和每个目标(updrs_1, updrs_2, updrs_3, updrs_4)分别构建了一个模型。

我用于所有目标的关键变量是:

  • "visit_month"
  • "num_visits":患者在visit_month之前的就诊次数
  • "relation":这两个变量之间的关系

目标函数是MAE。

使用这些特征,我达到了:
CV ~ 54.57 (公开分数: 54.5, 私有分数: 60.3)

值得一提的是,我的提交中大约有70%的表现优于我最终选择的两份提交。(幸运的是我获得了金牌)

特征选择

我进行了一项分析,以确定能够提升我本地验证效果的蛋白质,特别是针对updrs_1、updrs_2和updrs_3。该分析通过运行多次折叠划分并取CV的平均值来减少随机性。

其他措施

  • 我在蛋白质NPX值中引入了随机噪声以防止过拟合。
  • 我随机将15%的蛋白质NPX值设为Null,同样作为防止过拟合的措施。
  • 我对updrs_3和updrs_4进行了目标转换(np.log1p/np.expm1)

综合以上所有措施,我最好的本地验证分数为53.46(公开分数: 54.8, 私有分数: 60.9)。

对我无效的方法

  • 移除训练中的异常值
  • 自定义目标函数
  • 使用不同模型的集成
  • 先预测趋势再预测残差

经验总结

  • 我应该选择一份基于公开排行榜(public LB)的提交和另一份基于CV的提交,而不是两份都仅仅依赖CV。
  • 下次,我将投入更多时间进行更深入的数据探索分析(EDA)。
同比赛其他方案