第11名解决方案

首先，我要感谢 Kaggle 和主办方举办这次比赛。
我仍然不敢相信我获得了单人金牌。

概述

Overview Image

我集成了21个模型（包括使用伪标签训练的模型）。我使用了岭回归和 Netflix 方法进行集成。

对于我所有的 Transformer 模型，我使用了这个 Notebook 和这个 Notebook。

[高影响] 针对每个目标进行岭回归和 Netflix 方法集成
- 结果：约 -0.009
- 理由和背景：将各种模型的预测（即使每个分数很低）添加到集成中，而不仅仅是 Deberta-v3，改善了后续的 CV。所以我除了 deberta-v3 之外还使用了 10 个其他模型。
[低影响] 伪标签
- 结果：约 -0.003
- 理由和背景：我使用 'Feedback Prize - Evaluating Student Writing'(FB1) 竞赛数据创建了伪标签。然而，对于训练数据来说伪标签太多了，使用所有这些标签可能会导致严重的泄漏，因此我们限制了每个 Fold 中可以使用的伪数据。
  我使用伪标签进行了最多 2 个步骤的学习。

用于第二阶段预测的 Stacking
- 尝试内容：我尝试了 LGBM、2DCNN、MLP 和 GCN 用于第二阶段预测。
- 结果：变差
- 理由和背景：我尝试了 LGBM、2DCNN、MLP 和 GCN 用于第二阶段预测。然而，所有这些都使 CV 变差了。此外，通过 Nelder-Mead 方法进行的权重优化确实得分更好，但不如岭回归或 Netflix 方法好，因此我们没有将其用于最终提交。
基于以往竞赛数据集的预训练
- 尝试内容：在训练之前，我使用以往竞赛的数据（'Feedback Prize - Evaluating Student Writing' 和 'Feedback Prize - Predicting Effective Arguments'）预训练了模型。
- 结果：无变化或变差
- 理由和背景：分数几乎相同或略差，所以我停止了这方面的尝试，考虑到学习成本不划算。
根据输入文本的长度更改模型
- 结果：变差
- 理由和背景：Deberta-v3 模型可以处理任意长度的句子，而 Roberta 和 Funnel 受限于 512 和 1024。然而，据测定，即使使用了 max_len 限制，模型分数也几乎保持不变，并且可以用于为集成提供种子。

我使用了 abiheshark 的 cv 策略，采用了 4、5 折以及多种随机种子。