505. American Express - Default Prediction | amex-default-prediction
首先感谢 Kaggle 举办了这场有趣的比赛。我个人对此很感兴趣,因为它与我大部分时间工作的金融领域密切相关。我们要感谢这支伟大的团队:@sirius81、@liji11、@tonymarkchris 和 @hanzhou0315,他们每个人都为比赛带来了独特的技能。非常感谢大家。
我们的特征工程结构受到了 @jiweiliu 这篇优秀笔记本 rapids-cudf-feature-engineering-xgb 的启发。
我们的 Meta 特征是提升集成效果的关键差异化因素。这些特征与 第12名方案 中描述的类似,非常感谢 @sirius81 提出了这些想法。正如 Sirius 在那篇文章中提到的,我们将它们作为每个客户ID(CID)的13个数值特征进行扁平化处理。
我们也尝试了将扁平化的 Meta 特征与聚合特征混合,这确实帮助了我们的模型,特别是 LGBM、CAT、XG 和 Tabnet。由于 Meta 特征的存在,这通常收敛得更快(在 XG 中通过早停减少了轮次),因此对于这种方法,我们必须降低学习率(LR)。
所有模型均在 Meta 特征和/或工程聚合特征上训练。神经网络(NN)大部分使用 GaussianScalar 进行缩放。
LGBM (Max CV 0.79932, Private 0.80731): 和大多数方案一样,基于 @ragnar123 的笔记本。我们对超参数做了一些小调整,但大部分相似。正如讨论中指出的,降低 LR 对 DART 肯定有帮助,对我们添加 Meta 特征也有帮助(LR 约为 0.0075)。
XG (Max CV 0.7984, Priv. 0.80687): XG 基于 @jiweiliu 的优秀笔记本。
CAT (Max CV