9th Place Solution ( XGBoost+LGBM+NN )

505. American Express - Default Prediction | amex-default-prediction

开始: 2022-05-25 结束: 2022-08-24 信贷风控数据算法赛

第9名解决方案 ( XGBoost+LGBM+NN )

第9名解决方案 ( XGBoost+LGBM+NN )

作者：George Reus (Expert) | 比赛排名：第9名 | 发布日期：2022-09-06

非常感谢 AMEX、Kaggle 以及整个比赛期间讨论区的所有贡献者（ @raddar , @cdeotte , @ragnar123 ,…）。祝贺所有获奖者以及新晋 Experts、Masters 和 Grandmasters！

分数与结果

我最好的提交：
CV: 0.799106 Public: 0.80062 Private: 0.80875
我的最终结果：
CV: 0.799194 Public: 0.80057 Private: 0.80868

特征工程

我只使用了由 @raddar 提供的整数数据集。

基础特征
聚合特征，如 mean（平均值）, max（最大值）, min（最小值）, std（标准差）, sum（总和）, median（中位数）, last（最后一个值）, first（第一个值）。
其他比率与差分特征（结合日期差）
last-first, last1-last2, last1-last3, last-mean, max/last, sum/last 等等。
日期特征
是否为节假日。

模型

LightGBM
3 个 LGBM 模型，采用不同的数据表示和参数，CV 分数在 [0.796-0.799] 范围内，LB 分数在 [0.797-0.799] 范围内（2 个模型使用 dart-LGBM，1 个模型使用 goss-LGBM）。
XGBoost
6 个 XGB 模型，采用不同的数据表示和参数，CV 分数在 [0.794-0.796] 范围内，LB 分数在 [0.795-0.796] 范围内。
神经网络
4 个神经网络模型，使用不同的参数，CV 分数在 [0.788-0.790] 范围内，LB 分数在 [0.790-0.792] 范围内。
（我对 NN 表现并不是特别满意，再次感谢 @cdeotte 分享他优秀的公开 NN 内核。）

集成

使用 13 个模型进行 10 折交叉验证的堆叠，配合超参数调整和适当的早停，最终 Private 分数可达 [0.80853-0.80875] 范围。

一些想法

预测客户在使用信贷消费后是否会违约时，特征随时间变化的趋势（如消费频率、消费金额的变化）非常重要，尤其是最后几个月的变化趋势。

我非常感谢这次比赛。作为一个 Kaggle 新手，我在这次比赛中学到了很多。谢谢大家😎

同比赛其他方案

1st solution(update github code)

2nd place solution - team JuneHomes (writeup)

3rd solution--simple is the best

5th Place Solution - Team 💳VISA💳(Summary&zakopuro's part)

10th Place Solution: XGB with Autoregressive RNN features