547. Playground Series - Season 3, Episode 13 | playground-series-s3e13
大家好,我想花点时间对在比赛中分享的宝贵代码和讨论表示感谢。我将简要概述我的解决方案,分为以下几个步骤:
我选择使用z-score,是因为它可以根据每个特征在不同疾病中的频率来加权其相对重要性。例如,toenail_loss(脚趾甲脱落)这一特征在沙蝇热(Tungiasis)中的权重为2.78,而在基孔肯雅热(Chikungunya)中则为-0.67。这样既能突出重要特征对其对应疾病的贡献,同时也能让这些特征在其他疾病中产生负值。
4. 我基于z-score使用KMeans将这些症状聚类为三个簇,然后将每个簇的值(0或1)相加,为df_train数据集添加了3个新特征。
5. 对于所有11种疾病(出现的疾病),我将每个症状簇的z-score值相加。因此,对于三个簇中的每一个,我都计算了11种疾病的得分,最终为数据集添加了33个新特征。
在拥有这36个特征并丢弃所有原始特征后,我取得了以下结果:
CV = 0.475
Public LB = 0.43, Rank = 41
Private LB = 0.492, Rank = 58