返回列表

9th Place Solution ( XGBoost+LGBM+NN )

505. American Express - Default Prediction | amex-default-prediction

开始: 2022-05-25 结束: 2022-08-24 信贷风控 数据算法赛
第9名解决方案 ( XGBoost+LGBM+NN )

第9名解决方案 ( XGBoost+LGBM+NN )

作者:George Reus (Expert) | 比赛排名:第9名 | 发布日期:2022-09-06

非常感谢 AMEX、Kaggle 以及整个比赛期间讨论区的所有贡献者( @raddar , @cdeotte , @ragnar123 ,…)。祝贺所有获奖者以及新晋 Experts、Masters 和 Grandmasters!

分数与结果

我最好的提交:
CV: 0.799106         Public: 0.80062         Private: 0.80875
我的最终结果:
CV: 0.799194         Public: 0.80057         Private: 0.80868

特征工程

我只使用了由 @raddar 提供的整数数据集。

  • 基础特征
    聚合特征,如 mean(平均值), max(最大值), min(最小值), std(标准差), sum(总和), median(中位数), last(最后一个值), first(第一个值)。
  • 其他比率与差分特征(结合日期差)
    last-first, last1-last2, last1-last3, last-mean, max/last, sum/last 等等。
  • 日期特征
    是否为节假日。

模型

  • LightGBM
    3 个 LGBM 模型,采用不同的数据表示和参数,CV 分数在 [0.796-0.799] 范围内,LB 分数在 [0.797-0.799] 范围内(2 个模型使用 dart-LGBM,1 个模型使用 goss-LGBM)。
  • XGBoost
    6 个 XGB 模型,采用不同的数据表示和参数,CV 分数在 [0.794-0.796] 范围内,LB 分数在 [0.795-0.796] 范围内。
  • 神经网络
    4 个神经网络模型,使用不同的参数,CV 分数在 [0.788-0.790] 范围内,LB 分数在 [0.790-0.792] 范围内。
    (我对 NN 表现并不是特别满意,再次感谢 @cdeotte 分享他优秀的公开 NN 内核。)

集成

使用 13 个模型进行 10 折交叉验证的堆叠,配合超参数调整和适当的早停,最终 Private 分数可达 [0.80853-0.80875] 范围。

一些想法

预测客户在使用信贷消费后是否会违约时,特征随时间变化的趋势(如消费频率、消费金额的变化)非常重要,尤其是最后几个月的变化趋势。

我非常感谢这次比赛。作为一个 Kaggle 新手,我在这次比赛中学到了很多。谢谢大家😎

同比赛其他方案