返回列表

21th Place Solution

519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning

开始: 2022-08-30 结束: 2022-11-29 智能评测 数据算法赛
第21名解决方案

概览

  • 21个模型的加权平均集成。
  • 部分模型使用了原始预测与通过嵌入训练的SVR或Ridge回归预测的加权平均。(是使用SVR还是Ridge,或者都不使用,取决于哪种模式在集成中能获得最佳的CV分数)
  • CV=0.4407 / Public LB=0.434031 / Private LB=0.434983
    Overview Image

有效的方法

  • 针对每个指标的特殊标记(Multi Token)
    • 在开头添加针对每个指标的标记(如 "[REG_COH]", "[REG_SYN]" 等)并加以使用,以此代替CLS标记。
    • 根据骨干网络的不同,DeBERTa-v3-large 采用这种方式效果最好(CV=0.4478)
  • 在单个模型上结合 SVR 或 Ridge 回归的加权平均
    • 视模型而定,如果有效的话,可以轻松提升约 0.025 的分数。
  • AWP (Adversarial Weight Perturbation)
    • 单独使用时,准确率大约能提高 0.01 到 0.02。
    • 然而,当纳入集成模型时,未使用 AWP 的模型往往表现更好,因此最终只对部分模型应用了 AWP。
  • 分类任务模型
    • 独立性能并不是很好(CV=0.4562),但对集成很有效。
  • 伪标签
    • 基本上所有模型的性能都有所提升(最有效的模型提升了约 0.005,CV=0.445)。
    • 然而,Public LB 的准确率下降了很多,因此最终的提交中只包含了一个伪标签模型。
    • 但这其实是一个巨大的错误,也是我排名大幅下滑的最大因素。(详情请参阅 此讨论。)
    • [参考] 包含伪标签的集成模型性能:CV=0.4410 / Public LB=0.436303 / Private LB=0.433781
  • LLRD (Layer-wise Learning Rate Decay)

无效的方法

  • 最后一层重新初始化
  • 后处理
    • 我尝试通过 Nelder-Mead 方法获取系数,并按范围将最终预测乘以该系数来进行修正,但 LB 分数变差了,所以没有采纳。

致谢

感谢竞赛主办方举办这次比赛。
非常感谢所有分享精彩 Notebooks 和参与讨论的参赛者。
我是一个大约6个月前才通过 FB2 开始接触 NLP 的初学者,但多亏了通俗易懂的竞赛设计和许多有用的讨论,我现在对 NLP 有了更多的了解。
衷心希望你们能再次举办这样的比赛。再次感谢。

同比赛其他方案