返回列表

10th place - NODE (Neural Oblivious Decision Ensembles)

664. Playground Series - Season 5, Episode 8 | playground-series-s5e8

开始: 2025-08-01 结束: 2025-08-31 信贷风控 数据算法赛
第 10 名 - NODE (Neural Oblivious Decision Ensembles)

第 10 名 - NODE (Neural Oblivious Decision Ensembles)

解决方案总结 · 第 10 名 · 2025 年 9 月 1 日
作者:Thiago Lima Santos (Expert)

你好 Kaggle 社区,
我想分享一下我的最终解决方案摘要,这让我在本次比赛中进入了前 10 名。🚀

总体方法

主要思想是在第一层最大化多样性,并在第二层使用强大的元模型来充分利用不同的预测模式。

特征工程

对于分类变量,我使用了目标编码(target encoding)和计数编码(count encoding)。这使得线性模型和神经网络能够捕捉到有价值的信息,而不会导致维度爆炸。

我还尝试保留分类特征的原始格式,供原生处理它们的模型使用,如 CatBoost 和 LightGBM。

归一化和标准化(standardization)仅应用于对特征尺度敏感的模型(例如:MLP、KNN 和线性回归)。

第一层(基础模型)

  • XGBoost - 10 个模型
  • LightGBM - 5 个模型
  • CatBoost - 2 个模型
  • DeepTables (xDeepFM, DeepFM, AFM)
  • MLP + Bagging
  • AdaBoost + ExtraTrees
  • 逻辑回归 (RAPIDS)
  • XGBoost + Bagging
  • KNN (RAPIDS)
  • 随机森林 (RAPIDS)
  • AutoGluon

所有模型均通过 K 折交叉验证(KFold)训练以生成 OOF(Out-of-Fold)预测。

第二层(元模型)

亮点是使用 NODE (Neural Oblivious Decision Ensembles) 作为元模型。

它的表现优于其他替代方案,如 Hillclimb、Ridge、Lasso、使用 Optuna 加权的集成,甚至是第二层的加权组合。

同比赛其他方案