返回列表

25th Place - GBDT plus NN - Trust CV

629. Playground Series - Season 4, Episode 11 | playground-series-s4e11

开始: 2024-11-01 结束: 2024-11-30 健康管理与公共卫生 数据算法赛
第 25 名 - GBDT 加 NN - 信任交叉验证
标题:第 25 名 - GBDT 加 NN - 信任交叉验证
作者:Chris Deotte (Grandmaster)
发布时间:2024 年 12 月 1 日
比赛排名:第 25 名

大家好。感谢热烈的讨论和慷慨的分享。我很享受和大家一起参加这次比赛,我计划参加 12 月的比赛 这里!🎉

这是我的第二次 Playground 比赛。在之前的 Playground 比赛中,我构建了 100+ 模型并使用爬山法 这里 (讨论总结 这里)。然而从第一次经验中,我学到更简单的特征工程和简单的解决方案在 Playground 比赛中效果更好,所以这次比赛我的最终解决方案只是一个包含 3 个模型的集成(带有简单的特征工程)。即 CatBoost 加 XGBoost 加 NN。这是一个强大的多样化集成组合!🔥

使用 AUC 作为 ACC(准确率)指标的代理

本次比赛的指标是 ACC。该指标不平滑,在尝试优化模型和决策时具有大量随机方差。因此我使用更可靠的指标 AUC 来本地找到最佳 CV 分数。然后我选择了最佳 CV AUC 集成/模型作为最终提交。

33% CatBoost - CV ACC=0.9401 (AUC=0.9751), 公共 LB=0.9433, 私有 LB=0.9405

我的 CatBoost 模型基于得分最高的单个 CatBoost 公共 notebook 这里@abdmental01 提供。

33% XGBoost - CV ACC=0.9400 (AUC=0.9755), 公共 LB=0.9439, 私有 LB=0.9400

我的 XGBoost 模型基于得分最高的单个 XGBoost 公共 notebook 这里@adyiemaz 提供。

33% NN (MLP) - CV ACC=0.9399 (AUC=0.9756), 公共 LB=0.9427, 私有 LB=0.9413

我的 NN 本身可以在私有 LB 上达到第 68 名!它是一个强大的模型!我编码所有列的方式与我的公共 notebook 这里 相同。即我将每一列转换为分类字符串(并将稀有值转换为 value = "RARE",nan 转换为 value = "NAN")。然后我使用了 9 月 Playground 比赛的 NN 代码 这里。所有超参数、学习计划和架构都相同。

集成 - CV ACC=0.9406 (AUC=0.9762), 公共 LB=0.9438, 私有 LB=0.9415

我尝试添加一些其他模型,但上述三个模型实现了最佳的集成 CV。所以我的最终集成仅是上述三个模型,并在 Kaggle 的 "Exploring Mental Health Data" 比赛中获得了第 25 名!💪

同比赛其他方案