7th Place Solution

519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning

开始: 2022-08-30 结束: 2022-11-29 智能评测数据算法赛

第7名解决方案

作者: tk (Grandmaster) | 比赛排名: 第7名

恭喜所有的获奖者，也感谢主办方举办了这场有趣的比赛。
我至今仍不敢相信自己能冲进金牌区。

概览

我的最终提交结果是由16个模型集成而来的。模型的权重是通过 nelder-mead（单纯形）方法确定的。

模型

默认参数设置如下：

max_length = 512
awp (对抗训练)
- start_epoch = 3
- adv_lr = 0.0001
- adv_eps = 0.01
bce (二元交叉熵损失)
lr (学习率) = 2e-5
lwld (层级加权学习率衰减)
- base model: lr_decay = 0.9
- large model: lr_decay = 0.95
freeze layers (冻结层)
- large model: 1/2
- xlarge model: 3/4
fp16 (混合精度训练)
5-fold (5折交叉验证)

模型	变动	CV分数
deberta-v3-base	max_len=1024	0.4517
deberta-v3-base	no awp	0.4572
deberta-v3-large		0.4525
deberta-v3-large	no freeze	0.4549
deberta-v3-large	max_len=1024	0.4566
deberta-v3-large	l1_loss	0.4576
deberta-v2-xlarge	lr=5e-6	0.4602
deberta-xlarge		0.4514
deberta-large		0.4502
deberta-large	no awp	0.4555
deberta-large	l1_loss	0.4557
deberta-base		0.4567
roberta-large		0.459
muppet-roberta-large	no awp	0.4635
distilbart-mnli-12-9		0.4626
bart-large-finetuned-squadv1		0.4635

有效技巧

[高影响] awp (对抗权重扰动)
- cv +0.004 ~ 0.005
- awp 在 Public LB（公开排行榜）上效果不佳，所以我加入了无 awp 的模型进行集成
[中影响] lwld (层级加权学习率衰减)
- cv +0.002~0.003
[中影响] nelder-mead 方法
[低影响] bce (二元交叉熵损失)
- 比 l1_loss 收敛得更快
[低影响] freeze layers (冻结层)
- 训练更稳定且更快速

无效技巧

fgm (快速梯度法)
Last Layer Re-initialization (最后一层重初始化)

同比赛其他方案

1st Place Solution

2nd solution (back-translation & rank-loss)

3rd Place Solution - Congratulations New Competition Grandmaster Amed!

4th place solutioin

5th place solution