返回列表

6th place solution (Gaussian process regression (GPR))

446. CommonLit Readability Prize | commonlitreadabilityprize

开始: 2021-05-03 结束: 2021-08-02 智能评测 数据算法赛
第6名方案 (高斯过程回归 GPR)

第6名方案 (高斯过程回归 GPR)

作者: Kelvin, James Koh, makogarei, Frank
排名: 第6名

致谢

首先,我们要感谢 Kaggle 和 CommonLit 举办了这场有趣的比赛,这对我们来说是一段有趣的旅程!同时也祝贺所有获奖团队!

特别感谢 @rhtsingh@maunish@andretugan 提供的知识丰富且资源充足的 Notebooks。由于我们的团队对 Transformers 还比较陌生,利用公共 Notebook 的资源对我们的旅程帮助很大!

摘要

我们的最终提交包含 9 个 Transformer 模型,最终方案基于我们的第二阶段模型——高斯过程回归 (GPR) [1],我们用它来修正由于训练数据较少而导致的 Transformer 过度自信的预测。这可以概括为两个步骤:

  1. 提取所有 9 个模型最后一层 Transformer 层的 OOF 嵌入,并将它们拼接起来。
  2. 使用拼接后的嵌入向量训练一个 GPR 模型。

最终方案架构

Architecture

外部数据

我们从训练数据中提供的“url_legal”信息中抓取数据,仅使用具有“CC BY”和“CC BY-SA”许可证的数据。

Transformer 模型

像其他团队一样,我们首先开始微调 Transformer 模型,并通过训练不同的 Transformer 来增加多样性,从而专注于提高单模型 LB 分数。由于我们的目标是使用 GPR 来改进 Transformer 的预测,我们需要能够生成稳健嵌入的稳健 Transformer 模型。

我们的最终提交包含以下 9 个 Transformer 模型,所有模型均使用带有 Attention Head 的 5 折分层交叉验证进行训练。

模型 CV Public Private 备注
roberta-large0.4920.4710.471训练集上做 MLM
microsoft/deberta-large0.4850.4740.476训练集上做 MLM
xlnet-large-cased0.4940.4750.476-
deepset/roberta-large-squad20.4880.4640.467-
deepset/roberta-large-squad20.4840.4660.464训练集及外部数据上做 MLM
allenai/longformer-large-4096-finetuned-triviaqa0.4890.4670.47-
valhalla/bart-large-finetuned-squadv10.4710.4620.466训练集及外部数据上做 MLM,移除 Dropout
microsoft/deberta-large-mnli0.4690.4620.469训练集及外部数据上做 MLM,移除 Dropout
ahotrod/electra_large_discriminator_squad2_5120.4770.4680.468移除 Dropout

模型选择基于各自的 LB 分数(最好 <= 0.475)。

微调策略

以下是 Transformer 模型的微调策略:

  • Epochs: 5
  • Batch Size: 8
  • Optimizer: AdamW with SWA
同比赛其他方案