返回列表

[16th place solution] Features Diversity and Ensemble

505. American Express - Default Prediction | amex-default-prediction

开始: 2022-05-25 结束: 2022-08-24 信贷风控 数据算法赛
[第16名方案] 特征多样性与模型融合
作者: Priyanshu Chaudhary | 比赛排名: 第16名

[第16名方案] 特征多样性与模型融合

我们要感谢主办方和Kaggle社区提供了如此精彩的比赛。
我要感谢 @shivamcyborg@eventhorizon28 的支持与贡献,我们团队的共同努力帮助我们取得了这一成绩。
特别感谢 @raddar, @roberthatch, @cdeotte, @jiweiliu, @ragnar123 发布的精彩工作,如果没有他们的分析,这场比赛的方向可能会与现在大不相同。

以下是我们方案的简要说明。

特征工程
模型多样性

特征工程

我们在不同的模型训练中使用了不同的特征(均值、标准差和最后值特征是通用的)。我们通过三种方式训练模型:

  1. 仅使用 HMA(赫尔移动平均)特征
  2. 仅使用差分特征
  3. 使用 HMA + 差分特征(仅在 CatBoost 中有效)

对于某些模型(如 NN 和 XGBoost),使用所有差分特征并不是正确的选择,因为它们在训练期间引入了一些泄漏,导致交叉验证(CV)和排行榜(LB)完全不相关。对我们来说,HMA 特征被证明是比差分特征好得多的特征。

模型

我们使用了多种模型,包括 LGBM、XGBoost、CatBoost、两种不同架构的神经网络以及 TABNET。

以下是我们最佳单模型的得分:

模型 交叉验证 Private LB Public LB 描述 核心特征
LGBM .7973 0.80687 0.79906 3个不同种子的模型 + 2个公共模型 Diff+Last
XG Boost .7972 0.80639 0.79718 3个不同种子的模型 + 1个公共模型 HMA+Last
CAT Boost .7952 0.80468 0.79614 3个不同种子的模型 HMA+diff+Last
NN-1 .7923 0.80190 0.79240 3个不同种子的模型 HMA+Last
NN-2 .7921 0.80186 0.79188 2个不同种子的模型 diff + Last
TABNET .7933 - - 最后一天训练的单模型,用于引入多样性 HMA + Last

模型融合

由于我们的 CV 和 LB 相关性非常好,我们使用 Optuna 来选择集成权重,并对提交结果进行了排名集成。然而,由于一些优秀的公共模型没有 OOF(Out-of-Fold)预测结果,我们不得不手动为它们分配权重。

我们未能尝试的事情:

  1. 使用 B_29 预测缺失值,然后将其作为特征
  2. 带有 HMA 特征的 LGBM,这本该是我们最好的公共模型
  3. 仅使用 Private LB 数据进行伪标签