概述

实验分为两部分，一部分是基础模型的调试（添加各种技巧），另一部分是对较好的集成模型进行知识蒸馏，然后回到原始数据上继续训练和微调。

基础模型

● [有效] FGM (Fast Gradient Method)

○ 结果：cv +0.001-0.002

○ 理由与背景：从epoch 0开始，设置epsilon=0.25进行对抗攻击，太低或太高效果都不好（加入fgm对抗学习意味着你的训练时间基本上会翻倍）。

● [有效] LayerNorm

○ 结果：cv +0.0005-0.001

○ 理由与背景：在全连接层前加入LayerNorm层也能使效果更好。

● [有效] Attention Head

○ 结果：cv +0.0005

○ 理由与背景：比较[CLS]、mean pooling和attention head，前两者的效果基本没有区别，mean pooling可能稍好，效果最好的是attention head。

● [有效] Multi-sample Dropout

○ 结果：cv+0.0001

○ 理由与背景：Multi-sample Dropout在base模型上的效果不是很好，会导致训练loss震荡，但在v3-large模型上效果不错，可以防止大模型过拟合。

● [有效] LLRD (Layer-wise Learning Rate Decay)

○ 结果：cv+0.001

○ 理由与背景：在比较了每层0.8-0.9的学习率后，并将层数分块设置学习率（最好将3或4层分为一组），后者给我的cv带来了更大的提升。

● [无效] AWP (Adversarial Weight Perturbation)

● [无效] 其他Heads（maxmeanpool、weight pool、contact different layers等）

● [无效] MLM（预训练在fb3和fb2上效果不佳）

基础模型的集成使用了最简单的optuna方法来调整不同模型的权重（当时我考虑过在知识蒸馏后使用第二阶段集成模型，例如：svr, lasso, linear, gbdt等）

● 数据集：FB1去除FB3后的数据