返回列表

#24 solution – Xdata + XGB + LGBM + CAT + Opt roc curve

544. Playground Series - Season 3, Episode 12 | playground-series-s3e12

开始: 2023-04-04 结束: 2023-04-17 临床决策支持 数据算法赛

第24名解决方案 – Xdata + XGB + LGBM + CAT + Opt roc曲线

作者:Kirderf (Grandmaster) | 发布日期:2023年4月18日 | 竞赛排名:第24名 | 得票数:7票

以下是第24名解决方案的简要总结。

数据

使用了比赛数据以及额外可用的原始组织数据,未进行降维处理,仅采用缩放作为特征工程。

模型

由于目标变量并不不平衡,我采用了8折交叉验证训练,并选用LGBM、XGB和CATBoost作为基础模型,使用在类似问题上表现良好的已知参数配置。为模型设置了目标变量的平衡和加权参数,以确保目标分布完全均衡。

在每个fold完成模型训练后,在预测概率之前,还基于验证集对ROC曲线进行了校准。

后处理

对三个模型进行了最佳权重值的优化,同时也对最优幂平均值进行了调优。

结论

发现其中一折的验证分数异常偏低。通过进一步分析,可能对该折数据进行清洗和过滤有助于提升最终得分。

我也尝试了其他更复杂的特征工程和模型,但最终选择基于交叉验证分数(而非公开排行榜分数)的解决方案,这一决策被证明是正确的选择。

总结完毕!祝Kaggle愉快!😊

同比赛其他方案