首次参加 Kaggle 竞赛即用 XGBoost 获得第 45 名

作者: Robert Hatch | 排名: 第 45 名 | 发布时间: 2022-08-26

一些运气加上一些创新，让我在第一次参赛中意外获得了前 1% 的成绩！

总排名第 49 位，在单人新手中排名第 5。在业余单人新手中排名第 3。（总排名第 7 和第 10 的选手也是首次单人参加 Kaggle 竞赛，但他们的资料显示他们是专业的数据科学家。）至少可以说，我对我的成绩非常满意！谁知道呢，也许我的 XGB 模型在 Private LB（私有排行榜）上 0.80798 的分数，可能是单模型中的前 10 或前 20 名。

我是 Intel 的专业软件工程师，但只是机器学习爱好者（几年前开始接触股票市场相关内容），所以我是专业的解决问题者，却是机器学习领域的业余选手。我在这次比赛上花费了太多的时间，其中很多时间都在纠结基础知识，比如“哦，那不是 pandas df，是 cudf df。现在我可以看正确的文档了。……哦，Kaggle 版本的 rapids cudf (20.x) 没有我此刻正盯着的 cudf v21.x 文档中的这个函数调用。”这比听起来还要痛苦，而且还有很多反复出现的小问题。我没有碰神经网络（NN）。我接触了 LGBM 和 XGB，但即使只花时间在两个模型上，对我来说也有点超负荷了。

我将首先介绍我的提交报告，希望稍后再补充我对第一次 Kaggle 竞赛经验的一般性总结。我喜欢半意识流的长篇大论，所以请系好安全带！:)

提交报告

分数与结果

第 49 名。Private LB 分数 0.80798。Public LB 分数 0.79889。

排名从第 406 名（我的两个模型与 LGBM dart public 的集成）-> 第 49 名（我的独立模型提交）。

方案概述

我的解决方案在每一步都是纯 XGBoost 模型。在高层面上，忽略我探索过程的时间线，我做了这些事情：

注意：我在任何优化或调整过程中使用的是 AUC 分数，而不是 logloss 或 Amex 指标。
通过寻路和纯理论推导创建了 XGB Pyramid（金字塔）。
- https://www.kaggle.com/code/roberthatch/pyramid-api-for-easy-deployment
基础的热门特征聚合以及我自己的一些创新。最值得注意的是移动平均线，虽然我只在所有报表上使用了它们。Hull 移动平均线和指数平均线。每个基础数值特征共有 16 种聚合。
- https://www.kaggle.com/code/roberthatch/amex-feature-engg-gpu-or-cpu-process-in-chunks
- https://www.kaggle.com/code/roberthatch/exponential-averages-amex-feature-engineering
- 我丢弃了 B_29 并且再也没回头！
元特征：为训练集中的每一行和测试集中的每一行预测下个月错过付款的概率，这意味着逾期天数大幅增加，并最终达到或超过 28 天。
- https://www.kaggle.com/code/roberthatch/amex-fe-02-days-overdue-label
- 灵感来源：https://www.kaggle.com/code/raddar/deanonymized-days-overdue-feat-amex
- 不仅仅是使用那一行的数据进行预测，我想通过反向聚合使用该行以及所有过去的数据。为了适应内存，使用各种捷径进行前向特征选择（基于正常目标预测），最终选定了 280 个特征。
- 我还预测下个月逾期天数非零的概率，作为一个独立的元特征。
- 在 GPU 和时间不足的情况下（约剩 48 小时），只进行了单次五折 OOF（Out-of-Fold）预测。最好能平均 3-5 个模型。可以用所有模型预测最后一条报表，因为它们不能用于训练，但为了简单起见，只预测最后的 "oof"。
主模型是第二步，获取聚合的元特征（2*16）和其他 3000 个特征，转换为 float 16 以节省内存，

45th place with XGBoost in first Kaggle competition

首次参加 Kaggle 竞赛即用 XGBoost 获得第 45 名

提交报告

分数与结果

方案概述

同比赛其他方案