当前排名第29位的方案
当前排名第29位的方案
作者:hedwig100 | 发布时间:2021-03-19
我是 Kaggle 的新手,所以能排在排行榜前列让我很惊讶(可能是因为运气好)。我在这次比赛中学到了很多,想分享一下我的方法。我发布了 推理 notebook 和 训练 notebook。
在比赛的后期,我注意到集成模型可以提高我的本地 CV 分数。我认为这是因为预测变得更加稳定了。因此,我训练了各种模型,并将这些模型进行了集成。详情如下所示。
训练策略
- 使用了 PurgedGroupTimeSeriesSplit(5折,间隔 gap 为 20)
- 但在训练编码器时可能导致了泄露……
- 观察了每一折的 AUC 和 UtilityScore。
- 使用验证集 AUC 进行早停
预处理
- 将 NaN 填充为 0,并进行特征中性化处理(FeatureNeutralization,p=0.25)
- 将 NaN 填充为均值
- 使用了去噪自编码器
模型
- 简单的 NN(神经网络)、CNN 和 DenseNet。
- 我也使用了这个著名的 notebook中的模型架构。我使用我的 CV 策略训练了这个模型。
- 在第一次提交中,我使用了我的 3 个模型。
- 在第二次提交中,我使用了我的 3 个模型 + 1 个 PyTorch 模型。
- 对于每个模型,我使用了最后一折训练的权重,以及使用所有数据训练的权重(除了 weight = 0 和前 85 天的数据)。
- 第二次提交获得了更高的分数。
集成
感谢您的阅读!