返回列表

Current 29th place approach

451. Jane Street Market Prediction | jane-street-market-prediction

开始: 2020-11-23 结束: 2021-08-23 量化投资 数据算法赛
当前排名第29位的方案

当前排名第29位的方案

作者:hedwig100 | 发布时间:2021-03-19

我是 Kaggle 的新手,所以能排在排行榜前列让我很惊讶(可能是因为运气好)。我在这次比赛中学到了很多,想分享一下我的方法。我发布了 推理 notebook训练 notebook

在比赛的后期,我注意到集成模型可以提高我的本地 CV 分数。我认为这是因为预测变得更加稳定了。因此,我训练了各种模型,并将这些模型进行了集成。详情如下所示。

训练策略

  • 使用了 PurgedGroupTimeSeriesSplit(5折,间隔 gap 为 20)
  • 但在训练编码器时可能导致了泄露……
  • 观察了每一折的 AUC 和 UtilityScore。
  • 使用验证集 AUC 进行早停

预处理

  • 将 NaN 填充为 0,并进行特征中性化处理(FeatureNeutralization,p=0.25)
  • 将 NaN 填充为均值
  • 使用了去噪自编码器

模型

  • 简单的 NN(神经网络)、CNN 和 DenseNet。
  • 我也使用了这个著名的 notebook中的模型架构。我使用我的 CV 策略训练了这个模型。
  • 在第一次提交中,我使用了我的 3 个模型。
  • 在第二次提交中,我使用了我的 3 个模型 + 1 个 PyTorch 模型。
  • 对于每个模型,我使用了最后一折训练的权重,以及使用所有数据训练的权重(除了 weight = 0 和前 85 天的数据)。
  • 第二次提交获得了更高的分数。

集成

  • 加权平均
  • 权重由 CV 分数决定。

感谢您的阅读!

同比赛其他方案