返回列表

7th Place Solution

519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning

开始: 2022-08-30 结束: 2022-11-29 智能评测 数据算法赛
第7名解决方案
作者: tk (Grandmaster) | 比赛排名: 第7名

恭喜所有的获奖者,也感谢主办方举办了这场有趣的比赛。
我至今仍不敢相信自己能冲进金牌区。

概览

我的最终提交结果是由16个模型集成而来的。模型的权重是通过 nelder-mead(单纯形)方法确定的。

模型

默认参数设置如下:

  • max_length = 512
  • awp (对抗训练)
    • start_epoch = 3
    • adv_lr = 0.0001
    • adv_eps = 0.01
  • bce (二元交叉熵损失)
  • lr (学习率) = 2e-5
  • lwld (层级加权学习率衰减)
    • base model: lr_decay = 0.9
    • large model: lr_decay = 0.95
  • freeze layers (冻结层)
    • large model: 1/2
    • xlarge model: 3/4
  • fp16 (混合精度训练)
  • 5-fold (5折交叉验证)
模型 变动 CV分数
deberta-v3-basemax_len=10240.4517
deberta-v3-baseno awp0.4572
deberta-v3-large0.4525
deberta-v3-largeno freeze0.4549
deberta-v3-largemax_len=10240.4566
deberta-v3-largel1_loss0.4576
deberta-v2-xlargelr=5e-60.4602
deberta-xlarge0.4514
deberta-large0.4502
deberta-largeno awp0.4555
deberta-largel1_loss0.4557
deberta-base0.4567
roberta-large0.459
muppet-roberta-largeno awp0.4635
distilbart-mnli-12-90.4626
bart-large-finetuned-squadv10.4635

有效技巧

  • [高影响] awp (对抗权重扰动)

    • cv +0.004 ~ 0.005
    • awp 在 Public LB(公开排行榜)上效果不佳,所以我加入了无 awp 的模型进行集成
  • [中影响] lwld (层级加权学习率衰减)

    • cv +0.002~0.003
  • [中影响] nelder-mead 方法

  • [低影响] bce (二元交叉熵损失)

    • 比 l1_loss 收敛得更快
  • [低影响] freeze layers (冻结层)

    • 训练更稳定且更快速

无效技巧

  • fgm (快速梯度法)
  • Last Layer Re-initialization (最后一层重初始化)
同比赛其他方案