17th place solution

第17名方案

作者：Rai
比赛排名：第17名

感谢 Kaggle 和比赛主办方。Feedback 系列比赛非常有趣，很高兴听到不久将会有更多的比赛推出。

概述

我在本次比赛的解决方案是 3 个 DeBERTa 模型的集成——一个 deberta-v3-base 和两个 deberta-v3-large 模型。我依赖不同的训练方法来增加多样性，并基于加权平均对它们进行了集成。在验证方面，我使用了 MultilabelStratifiedKFold，我的 CV（交叉验证）和 LB（排行榜）分数相当相关。此外，训练数据中的文章基于 42 个主题，有些主题有很多文章（100 - 300 篇），而其他主题只有很少的文章（< 50 篇）。在样本较少的主题上表现良好的模型在公共 LB 和私人 LB 上也表现良好。

有效的方法

使用 AWP (Adversarial Weight Perturbation) 训练
- 结果：+.001
- 最近的 NLP 比赛中有很多顶级解决方案使用了 AWP，它在本场比赛中对我也很有效。我最强的模型是从第 2 个 epoch 开始使用 AWP 的 deberta-v3-large。
使用差异化学习率
- 结果：.0008
- 根据讨论区的建议，这是我最早尝试的方法之一，最终我在所有模型中都使用了它。
重新初始化最后一层
- 结果：集成 CV 提高了 .001
- 我根据这篇帖子的建议训练了这个模型，它在集成中效果很好。

无效的方法

伪标签
- 我尝试了在伪标签上进行预训练，也在训练过程中使用它们，但没能成功。可能需要更多的调整，因为其他团队似乎用得不错。
MLM (掩码语言模型)
训练时添加作文提示

重要引用

AWP: https://www.kaggle.com/code/wht1996/feedback-nn-train/notebook

致谢

感谢所有在讨论区分享训练技巧的人，特别是 @wuwenmin。我加入得有点晚，阅读所有的讨论真的很有帮助。

第17名方案

概述

有效的方法

无效的方法

重要引用

致谢

同比赛其他方案