以下是第24名解决方案的简要总结。
数据
使用了比赛数据以及额外可用的原始组织数据,未进行降维处理,仅采用缩放作为特征工程。
模型
由于目标变量并不不平衡,我采用了8折交叉验证训练,并选用LGBM、XGB和CATBoost作为基础模型,使用在类似问题上表现良好的已知参数配置。为模型设置了目标变量的平衡和加权参数,以确保目标分布完全均衡。
在每个fold完成模型训练后,在预测概率之前,还基于验证集对ROC曲线进行了校准。
后处理
对三个模型进行了最佳权重值的优化,同时也对最优幂平均值进行了调优。
结论
发现其中一折的验证分数异常偏低。通过进一步分析,可能对该折数据进行清洗和过滤有助于提升最终得分。
我也尝试了其他更复杂的特征工程和模型,但最终选择基于交叉验证分数(而非公开排行榜分数)的解决方案,这一决策被证明是正确的选择。
总结完毕!祝Kaggle愉快!😊