返回列表

#58 solution: CV = 0.475, Public LB = 0.43, Private LB = 0.492

547. Playground Series - Season 3, Episode 13 | playground-series-s3e13

开始: 2023-04-18 结束: 2023-05-01 临床决策支持 数据算法赛
#58 解决方案:CV = 0.475,公开榜 0.43,私有榜 0.492

#58 解决方案:CV = 0.475,公开榜 0.43,私有榜 0.492

作者:Saeid Rasouli, MD
发布日期:2023-05-02

大家好,我想花点时间对在比赛中分享的宝贵代码和讨论表示感谢。我将简要概述我的解决方案,分为以下几个步骤:

  1. 我决定不在解决方案中使用原始数据集。
  2. 计算了每个特征在全部11种疾病中的出现频率。
  3. 然后计算了所有这些特征频率的z-score标准化值。

使用z-score的原因:

我选择使用z-score,是因为它可以根据每个特征在不同疾病中的频率来加权其相对重要性。例如,toenail_loss(脚趾甲脱落)这一特征在沙蝇热(Tungiasis)中的权重为2.78,而在基孔肯雅热(Chikungunya)中则为-0.67。这样既能突出重要特征对其对应疾病的贡献,同时也能让这些特征在其他疾病中产生负值。

4. 我基于z-score使用KMeans将这些症状聚类为三个簇,然后将每个簇的值(0或1)相加,为df_train数据集添加了3个新特征

5. 对于所有11种疾病(出现的疾病),我将每个症状簇的z-score值相加。因此,对于三个簇中的每一个,我都计算了11种疾病的得分,最终为数据集添加了33个新特征

在拥有这36个特征并丢弃所有原始特征后,我取得了以下结果:

CV = 0.475
Public LB = 0.43, Rank = 41
Private LB = 0.492, Rank = 58
同比赛其他方案