返回列表

15th Place Solution Meta features ,FE, DART, CAT, XG , Tabnet , MLP , ensemble 😊

505. American Express - Default Prediction | amex-default-prediction

开始: 2022-05-25 结束: 2022-08-24 信贷风控 数据算法赛
第15名方案:Meta特征、特征工程、DART、CAT、XG、Tabnet、MLP、集成

第15名方案:Meta特征、特征工程、DART、CAT、XG、Tabnet、MLP、集成 😊

作者:Gaurav Rawat

团队成员:@sirius81, @liji11, @tonymarkchris, @hanzhou0315

比赛排名:第15名

首先感谢 Kaggle 举办了这场有趣的比赛。我个人对此很感兴趣,因为它与我大部分时间工作的金融领域密切相关。我们要感谢这支伟大的团队:@sirius81@liji11@tonymarkchris@hanzhou0315,他们每个人都为比赛带来了独特的技能。非常感谢大家。

特征工程

我们的特征工程结构受到了 @jiweiliu 这篇优秀笔记本 rapids-cudf-feature-engineering-xgb 的启发。

Meta 特征

我们的 Meta 特征是提升集成效果的关键差异化因素。这些特征与 第12名方案 中描述的类似,非常感谢 @sirius81 提出了这些想法。正如 Sirius 在那篇文章中提到的,我们将它们作为每个客户ID(CID)的13个数值特征进行扁平化处理。

针对不含 Meta 特征的模型

  • Ragnar 提出的优秀特征很有帮助,例如某些列的 last-mean 特征和 last-min/max 特征,我们也应用了 diff 1,2 滞后特征。After pay 特征也很有用。
  • 我们对分类特征进行了常规聚合:std, mean, min, max(以及 nunique, count, first, mean)。我们也尝试了 MAD(平均绝对偏差),它确实提高了我们的 CV(交叉验证)分数,尽管 Public LB(公开排行榜)分数略低,因此我们没有在最终分数中包含基于 MAD 的模型,但事后看来它本可能会有所帮助。
  • 我们还添加了百分比变化特征,基本上是对数值特征进行百分比变化计算,我们认为这比单纯的数值差分效果更好。它们确实在一些模型中帮到了我们。
  • 此外,在我们大多数优秀模型中都存在的一个特征是保留报表的最后、第一和中间部分,因为我们假设这将帮助我们覆盖客户的大部分变异,因为我们已经有了聚合特征。
  • 我们尝试的另一个特征是计算 spend/balance 或 spend_sum/balance_sum 比率,这在某些模型中有帮助,但不是大多数。
  • 修剪无影响的特征也有助于将特征数量减少到 1k-2k 范围内。

混合方法 (Meta + Aggs)

我们也尝试了将扁平化的 Meta 特征与聚合特征混合,这确实帮助了我们的模型,特别是 LGBM、CAT、XG 和 Tabnet。由于 Meta 特征的存在,这通常收敛得更快(在 XG 中通过早停减少了轮次),因此对于这种方法,我们必须降低学习率(LR)

模型

所有模型均在 Meta 特征和/或工程聚合特征上训练。神经网络(NN)大部分使用 GaussianScalar 进行缩放。

LGBM (Max CV 0.79932, Private 0.80731): 和大多数方案一样,基于 @ragnar123 的笔记本。我们对超参数做了一些小调整,但大部分相似。正如讨论中指出的,降低 LR 对 DART 肯定有帮助,对我们添加 Meta 特征也有帮助(LR 约为 0.0075)。

XG (Max CV 0.7984, Priv. 0.80687): XG 基于 @jiweiliu 的优秀笔记本。

CAT (Max CV