第 25 名 - GBDT 加 NN - 信任交叉验证

标题：第 25 名 - GBDT 加 NN - 信任交叉验证
作者：Chris Deotte (Grandmaster)
发布时间：2024 年 12 月 1 日
比赛排名：第 25 名

大家好。感谢热烈的讨论和慷慨的分享。我很享受和大家一起参加这次比赛，我计划参加 12 月的比赛这里！🎉

这是我的第二次 Playground 比赛。在之前的 Playground 比赛中，我构建了 100+ 模型并使用爬山法这里 (讨论总结这里)。然而从第一次经验中，我学到更简单的特征工程和简单的解决方案在 Playground 比赛中效果更好，所以这次比赛我的最终解决方案只是一个包含 3 个模型的集成（带有简单的特征工程）。即 CatBoost 加 XGBoost 加 NN。这是一个强大的多样化集成组合！🔥

使用 AUC 作为 ACC（准确率）指标的代理

本次比赛的指标是 ACC。该指标不平滑，在尝试优化模型和决策时具有大量随机方差。因此我使用更可靠的指标 AUC 来本地找到最佳 CV 分数。然后我选择了最佳 CV AUC 集成/模型作为最终提交。

33% CatBoost - CV ACC=0.9401 (AUC=0.9751), 公共 LB=0.9433, 私有 LB=0.9405

我的 CatBoost 模型基于得分最高的单个 CatBoost 公共 notebook 这里由 @abdmental01 提供。

33% XGBoost - CV ACC=0.9400 (AUC=0.9755), 公共 LB=0.9439, 私有 LB=0.9400

我的 XGBoost 模型基于得分最高的单个 XGBoost 公共 notebook 这里由 @adyiemaz 提供。

33% NN (MLP) - CV ACC=0.9399 (AUC=0.9756), 公共 LB=0.9427, 私有 LB=0.9413

我的 NN 本身可以在私有 LB 上达到第 68 名！它是一个强大的模型！我编码所有列的方式与我的公共 notebook 这里相同。即我将每一列转换为分类字符串（并将稀有值转换为 value = "RARE"，nan 转换为 value = "NAN"）。然后我使用了 9 月 Playground 比赛的 NN 代码这里。所有超参数、学习计划和架构都相同。

集成 - CV ACC=0.9406 (AUC=0.9762), 公共 LB=0.9438, 私有 LB=0.9415

我尝试添加一些其他模型，但上述三个模型实现了最佳的集成 CV。所以我的最终集成仅是上述三个模型，并在 Kaggle 的 "Exploring Mental Health Data" 比赛中获得了第 25 名！💪

25th Place - GBDT plus NN - Trust CV

使用 AUC 作为 ACC（准确率）指标的代理

33% CatBoost - CV ACC=0.9401 (AUC=0.9751), 公共 LB=0.9433, 私有 LB=0.9405

33% XGBoost - CV ACC=0.9400 (AUC=0.9755), 公共 LB=0.9439, 私有 LB=0.9400

33% NN (MLP) - CV ACC=0.9399 (AUC=0.9756), 公共 LB=0.9427, 私有 LB=0.9413

集成 - CV ACC=0.9406 (AUC=0.9762), 公共 LB=0.9438, 私有 LB=0.9415

同比赛其他方案