6th place solution (Gaussian process regression (GPR))

第6名方案 (高斯过程回归 GPR)

作者: Kelvin, James Koh, makogarei, Frank
排名: 第6名

首先，我们要感谢 Kaggle 和 CommonLit 举办了这场有趣的比赛，这对我们来说是一段有趣的旅程！同时也祝贺所有获奖团队！

特别感谢 @rhtsingh、@maunish 和 @andretugan 提供的知识丰富且资源充足的 Notebooks。由于我们的团队对 Transformers 还比较陌生，利用公共 Notebook 的资源对我们的旅程帮助很大！

我们的最终提交包含 9 个 Transformer 模型，最终方案基于我们的第二阶段模型——高斯过程回归 (GPR) [1]，我们用它来修正由于训练数据较少而导致的 Transformer 过度自信的预测。这可以概括为两个步骤：

Architecture

我们从训练数据中提供的“url_legal”信息中抓取数据，仅使用具有“CC BY”和“CC BY-SA”许可证的数据。

像其他团队一样，我们首先开始微调 Transformer 模型，并通过训练不同的 Transformer 来增加多样性，从而专注于提高单模型 LB 分数。由于我们的目标是使用 GPR 来改进 Transformer 的预测，我们需要能够生成稳健嵌入的稳健 Transformer 模型。

我们的最终提交包含以下 9 个 Transformer 模型，所有模型均使用带有 Attention Head 的 5 折分层交叉验证进行训练。

模型	CV	Public	Private	备注
roberta-large	0.492	0.471	0.471	训练集上做 MLM
microsoft/deberta-large	0.485	0.474	0.476	训练集上做 MLM
xlnet-large-cased	0.494	0.475	0.476	-
deepset/roberta-large-squad2	0.488	0.464	0.467	-
deepset/roberta-large-squad2	0.484	0.466	0.464	训练集及外部数据上做 MLM
allenai/longformer-large-4096-finetuned-triviaqa	0.489	0.467	0.47	-
valhalla/bart-large-finetuned-squadv1	0.471	0.462	0.466	训练集及外部数据上做 MLM，移除 Dropout
microsoft/deberta-large-mnli	0.469	0.462	0.469	训练集及外部数据上做 MLM，移除 Dropout
ahotrod/electra_large_discriminator_squad2_512	0.477	0.468	0.468	移除 Dropout

模型选择基于各自的 LB 分数（最好 <= 0.475）。

以下是 Transformer 模型的微调策略：

第6名方案 (高斯过程回归 GPR)