第21名解决方案

概览

21个模型的加权平均集成。
部分模型使用了原始预测与通过嵌入训练的SVR或Ridge回归预测的加权平均。（是使用SVR还是Ridge，或者都不使用，取决于哪种模式在集成中能获得最佳的CV分数）
CV=0.4407 / Public LB=0.434031 / Private LB=0.434983

有效的方法

针对每个指标的特殊标记（Multi Token）
- 在开头添加针对每个指标的标记（如 "[REG_COH]", "[REG_SYN]" 等）并加以使用，以此代替CLS标记。
- 根据骨干网络的不同，DeBERTa-v3-large 采用这种方式效果最好（CV=0.4478）
在单个模型上结合 SVR 或 Ridge 回归的加权平均
- 视模型而定，如果有效的话，可以轻松提升约 0.025 的分数。
AWP (Adversarial Weight Perturbation)
- 单独使用时，准确率大约能提高 0.01 到 0.02。
- 然而，当纳入集成模型时，未使用 AWP 的模型往往表现更好，因此最终只对部分模型应用了 AWP。
分类任务模型
- 独立性能并不是很好（CV=0.4562），但对集成很有效。
伪标签
- 基本上所有模型的性能都有所提升（最有效的模型提升了约 0.005，CV=0.445）。
- 然而，Public LB 的准确率下降了很多，因此最终的提交中只包含了一个伪标签模型。
- 但这其实是一个巨大的错误，也是我排名大幅下滑的最大因素。（详情请参阅此讨论。）
- [参考] 包含伪标签的集成模型性能：CV=0.4410 / Public LB=0.436303 / Private LB=0.433781
LLRD (Layer-wise Learning Rate Decay)

感谢竞赛主办方举办这次比赛。
非常感谢所有分享精彩 Notebooks 和参与讨论的参赛者。
我是一个大约6个月前才通过 FB2 开始接触 NLP 的初学者，但多亏了通俗易懂的竞赛设计和许多有用的讨论，我现在对 NLP 有了更多的了解。
衷心希望你们能再次举办这样的比赛。再次感谢。