第21名解决方案
概览
- 21个模型的加权平均集成。
- 部分模型使用了原始预测与通过嵌入训练的SVR或Ridge回归预测的加权平均。(是使用SVR还是Ridge,或者都不使用,取决于哪种模式在集成中能获得最佳的CV分数)
- CV=0.4407 / Public LB=0.434031 / Private LB=0.434983

有效的方法
- 针对每个指标的特殊标记(Multi Token)
- 在开头添加针对每个指标的标记(如 "[REG_COH]", "[REG_SYN]" 等)并加以使用,以此代替CLS标记。
- 根据骨干网络的不同,DeBERTa-v3-large 采用这种方式效果最好(CV=0.4478)
- 在单个模型上结合 SVR 或 Ridge 回归的加权平均
- 视模型而定,如果有效的话,可以轻松提升约 0.025 的分数。
- AWP (Adversarial Weight Perturbation)
- 单独使用时,准确率大约能提高 0.01 到 0.02。
- 然而,当纳入集成模型时,未使用 AWP 的模型往往表现更好,因此最终只对部分模型应用了 AWP。
- 分类任务模型
- 独立性能并不是很好(CV=0.4562),但对集成很有效。
- 伪标签
- 基本上所有模型的性能都有所提升(最有效的模型提升了约 0.005,CV=0.445)。
- 然而,Public LB 的准确率下降了很多,因此最终的提交中只包含了一个伪标签模型。
- 但这其实是一个巨大的错误,也是我排名大幅下滑的最大因素。(详情请参阅 此讨论。)
- [参考] 包含伪标签的集成模型性能:CV=0.4410 / Public LB=0.436303 / Private LB=0.433781
- LLRD (Layer-wise Learning Rate Decay)
无效的方法
- 最后一层重新初始化
- 后处理
- 我尝试通过 Nelder-Mead 方法获取系数,并按范围将最终预测乘以该系数来进行修正,但 LB 分数变差了,所以没有采纳。
致谢
感谢竞赛主办方举办这次比赛。
非常感谢所有分享精彩 Notebooks 和参与讨论的参赛者。
我是一个大约6个月前才通过 FB2 开始接触 NLP 的初学者,但多亏了通俗易懂的竞赛设计和许多有用的讨论,我现在对 NLP 有了更多的了解。
衷心希望你们能再次举办这样的比赛。再次感谢。