返回列表

7th place solution

478. Feedback Prize - Evaluating Student Writing | feedback-prize-2021

开始: 2021-12-14 结束: 2022-03-15 智能评测 数据算法赛
第7名解决方案

第7名解决方案

作者: Darragh, Dieter, Pascal Pfeiffer
比赛排名: 第7名

感谢佐治亚州立大学、The Learning Agency Lab 和 Kaggle 举办了这场组织得非常好的比赛。数据质量很高且非常有趣。这是一次很棒的学习经历。

还要感谢 Huggingface 🤗。如果没有你们,NLP 领域会变成什么样呢。

很遗憾,我们错过了在一些顶级方案中展示的最佳后处理方法 —— 如 WBF、GBM 堆叠器和 Yolo 风格的跨度检测器…… 真的非常出色的工作。下次再接再厉!

我们的解决方案融合了多个模型(Big bird, Longformer, Deberta, Deberta-v2, Deberta-v3, Bart),且均为大模型。我们使用了通过 Optuna 调优的加权平均法。阈值也是通过 Optuna 进行调优的。

与 BIO 标注不同,我们使用了 9 个模型输出 —— 7 个类别 & 无跨度,以及一个用于预测每个跨度起始 token 的输出。我们发现 token dropout 在减少过拟合方面效果很好。

在非常长的序列上进行训练并没有太大帮助。使用最大 1250 个 token 似乎效果不错。对于较短的模型,调整模型以扩展位置 token 长度,并将位置嵌入重复 2 倍或 3 倍效果很好。

同比赛其他方案