505. American Express - Default Prediction | amex-default-prediction
一些运气加上一些创新,让我在第一次参赛中意外获得了前 1% 的成绩!
总排名第 49 位,在单人新手中排名第 5。在业余单人新手中排名第 3。(总排名第 7 和第 10 的选手也是首次单人参加 Kaggle 竞赛,但他们的资料显示他们是专业的数据科学家。)至少可以说,我对我的成绩非常满意!谁知道呢,也许我的 XGB 模型在 Private LB(私有排行榜)上 0.80798 的分数,可能是单模型中的前 10 或前 20 名。
我是 Intel 的专业软件工程师,但只是机器学习爱好者(几年前开始接触股票市场相关内容),所以我是专业的解决问题者,却是机器学习领域的业余选手。我在这次比赛上花费了太多的时间,其中很多时间都在纠结基础知识,比如“哦,那不是 pandas df,是 cudf df。现在我可以看正确的文档了。……哦,Kaggle 版本的 rapids cudf (20.x) 没有我此刻正盯着的 cudf v21.x 文档中的这个函数调用。”这比听起来还要痛苦,而且还有很多反复出现的小问题。我没有碰神经网络(NN)。我接触了 LGBM 和 XGB,但即使只花时间在两个模型上,对我来说也有点超负荷了。
我将首先介绍我的提交报告,希望稍后再补充我对第一次 Kaggle 竞赛经验的一般性总结。我喜欢半意识流的长篇大论,所以请系好安全带!:)
第 49 名。Private LB 分数 0.80798。Public LB 分数 0.79889。
排名从第 406 名(我的两个模型与 LGBM dart public 的集成)-> 第 49 名(我的独立模型提交)。
我的解决方案在每一步都是纯 XGBoost 模型。在高层面上,忽略我探索过程的时间线,我做了这些事情: