528. Playground Series Season 3, Episode 2 | playground-series-s3e2
大家好,
鉴于数据集高度不平衡,且AUC会根据样本数量发生很大变化,看来排名确实发生了不小的震动。我意识到我的OOF AUC和排行榜分数之间存在很大差异,所以我决定只信任我的交叉验证(10折分层K折)。
smoking status(吸烟状态)中的 unknown(未知)类别填充为 never smoked(从不吸烟)。这个直觉来自于我的EDA(探索性数据分析),你可以看到 unknown 类别的中风概率最低。gender(性别)中的 other(其他)类别填充为 male(男性)。我发现在合成数据集中填充该记录时,CV分数有所提升。我没有在排行榜上验证这一点在测试集上的效果。def generate_features(df):
df['age/bmi'] = df.age / df.bmi
df['age*bmi'] = df.age * df.bmi
df['bmi/prime'] = df.bmi / 25
df['obesity'] = df.avg_glucose_level * df.bmi / 1000
df['blood_heart']= df.hypertension*df.heart_disease
return df
我的最终集成由几个模型组成:
就是这样了。祝贺获胜者,期待下一次的 playground 比赛。