概览

我集成了15个模型（使用4折交叉验证）。
我在所有模型中使用了正交初始化、重新初始化最后一层以及层级学习率衰减。
这些方法对我来说效果很好。

加权损失在部分模型上稍微提高了CV和LB分数。
加权损失可能是我方案的一个独特之处。
我分享了我的加权损失代码。
加权损失倾向于提高那些容易预测的目标的得分。
为了模型的多样性，我想为每个模型制作两个版本（一个使用加权损失，另一个不使用），但没有足够的时间来训练所有这些模型。

然后我尝试将一些方法（AWP, SiFT, MIXout等）应用到Deberta-v3-base模型中，但都没有奏效。
然而在比赛快结束的时候，我发现SiFT和MIXout对Deberta-v3-small（不使用加权损失）效果很好。
我想将这些方法应用到其他模型（large, xsmall, Roberta等），但没有时间训练了……
所以这些方法仅应用于Deberta-v3-small模型。

我最佳提交所使用的模型如下。
模型列表

对于 deberta-v3-XXX 设置 max_len=1462，其他设置 max_len=512

有效的方法

正交初始化 [高影响]
平均池化 [高影响]
重新初始化最后几层 [高影响]
层级学习率衰减 [高影响]
对于 deberta-v3-base lr_mult=0.9，对于 small lr_mult=0.8
SiFT [取决于模型（可能取决于超参数，因为它对超参数敏感）]
仅对 deberta-v3-small / xsmall 有效（从第2个epoch开始，learning_rate=1e-3, init_perturbation=1e-2
https://arxiv.org/pdf/1911.03437.pdf
https://github.com/microsoft/DeBERTa/blob/master/DeBERTa/sift/sift.py
MIXout [对某些模型有中等影响]
仅对 deberta-v3-small/xsmall 有效 (mixout_prop=0.075)
https://arxiv.org/abs/1909.11299
加权损失 [中等影响]
请参考下方和我的代码

 https://openaccess.thecvf.com/content_cvpr_2018/papers/Kendall_Multi-Task_Learning_Using_CVPR_2018_paper.pdf
我猜测加权损失提高了那些容易预测的目标的得分。
考虑到加权损失的特性，这个结果是合理的。

同比赛其他方案

1st Place Solution

2nd solution (back-translation & rank-loss)

3rd Place Solution - Congratulations New Competition Grandmaster Amed!

4th place solutioin

5th place solution

49th place (Weighted Loss etc.)

概览

有效的方法

同比赛其他方案