返回列表

3rd Place Solution - 5 seeds ensemble transformer

500. Ubiquant Market Prediction | ubiquant-market-prediction

开始: 2022-01-18 结束: 2022-07-19 量化投资 数据算法赛
第三名方案 - 5个随机种子的Transformer集成模型

第三名方案 - 5个随机种子的Transformer集成模型

作者: hyd (Grandmaster) | 排名: 第3名 | 发布时间: 2022-07-21

首先,非常感谢 Kaggle 团队和 Ubiquant 市场团队举办这次比赛,特别是感谢在第一次更新中修复错误所付出的所有努力。同时恭喜所有的获奖者!我很幸运能在我的第一次金融类比赛中获得第3名。

模型

6层 Transformer,max_seq_length=3500 个投资标的。

损失函数

直接优化 PCC Loss(皮尔逊相关系数损失)。

训练方法

在训练数据上训练 10 个 epoch,在补充数据上训练 3 个 epoch。

特征工程

原始的 300 个特征。

数据增强

随机置零(特征级别) + 随机掩码(序列级别)。

验证策略

最后 k (k=100, 200, 300) 验证。

集成策略

5 个随机种子集成。

排名历程

900+ (Public LB) -> 失败 -> 7 -> 7 -> 4 -> 3

无效的尝试

  • 特征裁剪
  • 按 time_id 分组求平均特征(也许是我弄错了😂)
  • 基于相关性的特征选择
  • 样本选择或样本加权
  • 目标归一化或目标裁剪
  • 尝试过 LGB、MLP、1DCNN,但 Transformer 的表现优于这些模型。我太懒了所以没有做模型融合。
同比赛其他方案