#24 solution – Xdata + XGB + LGBM + CAT + Opt roc curve

544. Playground Series - Season 3, Episode 12 | playground-series-s3e12

开始: 2023-04-04 结束: 2023-04-17 临床决策支持数据算法赛

第24名解决方案 – Xdata + XGB + LGBM + CAT + Opt roc曲线

作者：Kirderf (Grandmaster) | 发布日期：2023年4月18日 | 竞赛排名：第24名 | 得票数：7票

以下是第24名解决方案的简要总结。

数据

使用了比赛数据以及额外可用的原始组织数据，未进行降维处理，仅采用缩放作为特征工程。

模型

由于目标变量并不不平衡，我采用了8折交叉验证训练，并选用LGBM、XGB和CATBoost作为基础模型，使用在类似问题上表现良好的已知参数配置。为模型设置了目标变量的平衡和加权参数，以确保目标分布完全均衡。

在每个fold完成模型训练后，在预测概率之前，还基于验证集对ROC曲线进行了校准。

后处理

对三个模型进行了最佳权重值的优化，同时也对最优幂平均值进行了调优。

结论

发现其中一折的验证分数异常偏低。通过进一步分析，可能对该折数据进行清洗和过滤有助于提升最终得分。

我也尝试了其他更复杂的特征工程和模型，但最终选择基于交叉验证分数（而非公开排行榜分数）的解决方案，这一决策被证明是正确的选择。

总结完毕！祝Kaggle愉快！😊

同比赛其他方案

#5 | Beginner's luck

# 28 Solution | Problem with private LB score