407. Mechanisms of Action (MoA) Prediction | lish-moa
首先,我们团队想要感谢 Kaggle 和主办方举办这次比赛。
我对这个结果仍然感到非常兴奋!

我们的方法非常简单:信任交叉验证(CV)& 集成学习。
采用了 @cdeotte 的 CV 方法(基于药物和多标签分层采样),排除了 cp_type = 'ctl_vehcle' 的样本。
这种方法几乎可以实现 CV 分数与 LB(Leaderboard)分数的完全相关。
(感谢 @cdeotte !!)
统计特征
PCA(主成分分析)
组合特征
for c in itertools.combinations(features_g + features_c, 2)):
col_name = f"{c[0]}_{c[1]}_diff"
d = train_features_df[c[0]] - train_features_df[c[1]]
diff_val = np.var(d)
if diff_val > 15:
train_features_df[col_name] = d
var_list.append(diff_val)
分位数变换器