519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning
我是NLP领域的新手,这是我第一次参加NLP比赛。
所以我从这次比赛中学到了很多东西。
感谢主办方举办这次比赛。
我集成了15个模型(使用4折交叉验证)。
我在所有模型中使用了正交初始化、重新初始化最后一层以及层级学习率衰减。
这些方法对我来说效果很好。
加权损失在部分模型上稍微提高了CV和LB分数。
加权损失可能是我方案的一个独特之处。
我分享了我的加权损失代码。
加权损失倾向于提高那些容易预测的目标的得分。
为了模型的多样性,我想为每个模型制作两个版本(一个使用加权损失,另一个不使用),但没有足够的时间来训练所有这些模型。
然后我尝试将一些方法(AWP, SiFT, MIXout等)应用到Deberta-v3-base模型中,但都没有奏效。
然而在比赛快结束的时候,我发现SiFT和MIXout对Deberta-v3-small(不使用加权损失)效果很好。
我想将这些方法应用到其他模型(large, xsmall, Roberta等),但没有时间训练了……
所以这些方法仅应用于Deberta-v3-small模型。
我最佳提交所使用的模型如下。

对于 deberta-v3-XXX 设置 max_len=1462,其他设置 max_len=512
正交初始化 [高影响]
平均池化 [高影响]
重新初始化最后几层 [高影响]
层级学习率衰减 [高影响]
对于 deberta-v3-base lr_mult=0.9,对于 small lr_mult=0.8
SiFT [取决于模型(可能取决于超参数,因为它对超参数敏感)]
仅对 deberta-v3-small / xsmall 有效(从第2个epoch开始,learning_rate=1e-3, init_perturbation=1e-2
https://arxiv.org/pdf/1911.03437.pdf
https://github.com/microsoft/DeBERTa/blob/master/DeBERTa/sift/sift.py
MIXout [对某些模型有中等影响]
仅对 deberta-v3-small/xsmall 有效 (mixout_prop=0.075)
https://arxiv.org/abs/1909.11299
加权损失 [中等影响]
请参考下方和我的代码

https://openaccess.thecvf.com/content_cvpr_2018/papers/Kendall_Multi-Task_Learning_Using_CVPR_2018_paper.pdf
我猜测加权损失提高了那些容易预测的目标的得分。
考虑到加权损失的特性,这个结果是合理的。