返回列表

7th Place Solution

463. chaii - Hindi and Tamil Question Answering | chaii-hindi-and-tamil-question-answering

开始: 2021-08-11 结束: 2021-11-15 自然语言处理 数据算法赛
第7名方案

第7名方案

作者: SeHwanJoo | 排名: 第7名

感谢 Kaggle 和 Google 研究团队举办这次比赛。通过这次比赛,我获得了很多经验,也学到了很多东西。我很感激能进入金牌区。欢迎随时留言评论。

太长不看版 (TLDR)

  1. 在 SQuAD2 上进行微调
  2. 训练时使用早停
  3. 硬投票集成

模型

我使用了 5 个 xlm-roberta-large,5 个 muril,4 个 rembert。

在 SQuAD2 上微调

deepset/xlm-roberta-large-squad2 是在 SQuAD2 上微调过的。在这一点上,我认为 xlm-roberta-large-squad2 有很好的性能。然后我在 SQuAD2 上微调了 muril 和 rembert。

训练

xlm-roberta-large-squad2:使用不同的种子训练了 5 个模型(无留出折叠)

muril:使用不同的折叠训练了 5 个模型

rembert:使用不同的折叠训练了 4 个模型

xlm-roberta-large 训练了 2 个 epoch,使用线性预热调度器。

muril 和 rembert 训练了 10 个 epoch,使用线性预热调度器并使用了早停。

硬投票集成

对所有模型使用硬投票集成。

xlm-roberta-large 硬投票得分:0.757 / 0.728

muril 硬投票得分:0.764 / 0.754

rembert 硬投票得分:0.755 / 0.731

所有模型硬投票得分:0.801 / 0.772

然后我调整了超参数并使用了其他数据集(XQA_tamil, translated_tamil 等),我提高了分数,我的最终提交如下。

所有模型硬投票得分:0.808 / 0.770

所有模型 + xlm-roberta-large(基于分数的集成)+ muril(基于分数的集成):0.808 / 0.770

无效尝试

  1. 基于分数的集成
  2. muril, rembert 种子集成
  3. 谷歌翻译数据增强
  4. 使用更多的 xlm-roberta-large 模型

恭喜大家完成比赛,下场比赛见。

同比赛其他方案