返回列表

[2nd Place Solution] - Robust CV and LGBM

500. Ubiquant Market Prediction | ubiquant-market-prediction

开始: 2022-01-18 结束: 2022-07-19 量化投资 数据算法赛
[第二名方案] - 稳健的交叉验证与LGBM

[第二名方案] - 稳健的交叉验证与LGBM

作者:Davide Stenner | 排名:第2名

感谢 Ubiquant 举办这次比赛!

这次比赛真的非常有挑战性,促使我进行了大量的计算优化工作。

我的比赛历程:

排名 分数 更新
34 0.082800 第一次更新
12 0.115900 第二次更新
4 0.133100 第三次更新
2 0.128200 第四次更新
2 0.123175 第五次更新

我的模型非常简单,因为我主要的工作重点在于使代码对错误和过拟合具有鲁棒性(稳健性)。
我使用了所有可用的数据:train.csv + supplemental_train.csv(在不导致内存溢出的情况下优化管道确实很难)

特征工程 (FE)

  • 300个基础列。
  • 100个新列:针对最近1000个 time_id 中观测值超过31个(这是一个统计魔法数字 :D)且与目标相关性最高的特征,按 time_id 计算平均值。
  • 5个宏观聚合特征:对于每一行(time_id, investment_id),我计算了所有数值特征(f_0, ... f_300)的均值、标准差、0.1分位数、0.5分位数和0.9分位数。

损失函数/评估指标

RMSE 和相关性(与比赛评估指标相关性很好)

我使用了带有禁运机制的 Purged K-FOLD 交叉验证,这样折与折之间就没有泄漏,有助于减少过拟合。

我训练了5个 LightGBM 模型,基于 CV 相关性(而不是单个验证分数)进行早停。

无效的尝试

同比赛其他方案