返回列表

45th place with XGBoost in first Kaggle competition

505. American Express - Default Prediction | amex-default-prediction

开始: 2022-05-25 结束: 2022-08-24 信贷风控 数据算法赛
首次参加 Kaggle 竞赛即用 XGBoost 获得第 45 名

首次参加 Kaggle 竞赛即用 XGBoost 获得第 45 名

作者: Robert Hatch | 排名: 第 45 名 | 发布时间: 2022-08-26

一些运气加上一些创新,让我在第一次参赛中意外获得了前 1% 的成绩!

总排名第 49 位,在单人新手中排名第 5。在业余单人新手中排名第 3。(总排名第 7 和第 10 的选手也是首次单人参加 Kaggle 竞赛,但他们的资料显示他们是专业的数据科学家。)至少可以说,我对我的成绩非常满意!谁知道呢,也许我的 XGB 模型在 Private LB(私有排行榜)上 0.80798 的分数,可能是单模型中的前 10 或前 20 名。

我是 Intel 的专业软件工程师,但只是机器学习爱好者(几年前开始接触股票市场相关内容),所以我是专业的解决问题者,却是机器学习领域的业余选手。我在这次比赛上花费了太多的时间,其中很多时间都在纠结基础知识,比如“哦,那不是 pandas df,是 cudf df。现在我可以看正确的文档了。……哦,Kaggle 版本的 rapids cudf (20.x) 没有我此刻正盯着的 cudf v21.x 文档中的这个函数调用。”这比听起来还要痛苦,而且还有很多反复出现的小问题。我没有碰神经网络(NN)。我接触了 LGBM 和 XGB,但即使只花时间在两个模型上,对我来说也有点超负荷了。

我将首先介绍我的提交报告,希望稍后再补充我对第一次 Kaggle 竞赛经验的一般性总结。我喜欢半意识流的长篇大论,所以请系好安全带!:)

提交报告

分数与结果

第 49 名。Private LB 分数 0.80798。Public LB 分数 0.79889。

排名从第 406 名(我的两个模型与 LGBM dart public 的集成)-> 第 49 名(我的独立模型提交)。

方案概述

我的解决方案在每一步都是纯 XGBoost 模型。在高层面上,忽略我探索过程的时间线,我做了这些事情:

同比赛其他方案