12th Place Solution

551. AMP®-Parkinsons Disease Progression Prediction | amp-parkinsons-disease-progression-prediction

开始: 2023-02-16 结束: 2023-05-18 药物研发数据算法赛

第12名解决方案

第12名解决方案

竞赛：AMP Parkinson's Disease Progression Prediction

排名：第12名

发布时间：2023-05-19

首先，我要向我的团队成员 @vitalykudelya、@yukisawamura、@salaryman 表达深深的感谢，感谢他们为本次比赛投入的时间、精力和专业知识。

其次，我们要向 Kaggle 社区和主办方表示感谢。感谢你们提供了具有挑战性的数据集和宝贵的学习机会。

解决方案概述

我们的解决方案基于用户分组、每组趋势计算、用户组预测（分类）以及为每组分配趋势。
您可以在这里查看我们的解决方案代码。由于我的流水线不够高效，评分需要很长时间😓

1. 分组

在探索性数据分析（EDA）过程中，我们注意到根据用户是否存在用药信息（在所有 'visit_month' 数据中，无论状态为 'On' 还是 'Off'），目标趋势存在显著差异。这构成了我们流水线的基础。

2. 趋势计算

基于分组信息，我们创建了三类趋势：无用药信息的趋势、有用药信息的趋势以及总体趋势。这些趋势参考了 'Only_Trend' 和 'Protein Shift' 的 notebook。其中，蛋白质 'P05060' 对提升 Public LB 分数贡献很大。

3. 特征工程 + 组分类

我们使用 LightGBM 实现了二元分类，以预测用户是否属于有用药信息的组。预测基于 'visit_month' 相关信息、蛋白质和肽数据。
在最终提交中，为了增强模型的鲁棒性，我们采用了 10 折交叉验证（CV）和随机种子平均。

4. 使用二元分类结果进行趋势映射

基于二元分类的结果，我们将每组的趋势进行映射。在最终提交中，如果二元分类的预测值大于 0.75，我们将其归为有用药信息组；如果预测值小于 0.15，则归为无用药信息组；其余情况使用总体趋势。

由于本次比赛的数据集较小，CV 和 LB 分数均不稳定。我们直到最后都在纠结应选择哪个提交方案。如果您有任何问题或反馈，欢迎随时评论。我们期待在社区中与大家一起学习。

同比赛其他方案

1st Place Solution

3rd place solution

4th Place Gold - Single Model RAPIDS cuML SVR!

#5: Find the control group

8th place solution: One trick to win the gold