463. chaii - Hindi and Tamil Question Answering | chaii-hindi-and-tamil-question-answering
感谢 Kaggle 和 Google 研究团队举办这次比赛。通过这次比赛,我获得了很多经验,也学到了很多东西。我很感激能进入金牌区。欢迎随时留言评论。
我使用了 5 个 xlm-roberta-large,5 个 muril,4 个 rembert。
deepset/xlm-roberta-large-squad2 是在 SQuAD2 上微调过的。在这一点上,我认为 xlm-roberta-large-squad2 有很好的性能。然后我在 SQuAD2 上微调了 muril 和 rembert。
xlm-roberta-large-squad2:使用不同的种子训练了 5 个模型(无留出折叠)
muril:使用不同的折叠训练了 5 个模型
rembert:使用不同的折叠训练了 4 个模型
xlm-roberta-large 训练了 2 个 epoch,使用线性预热调度器。
muril 和 rembert 训练了 10 个 epoch,使用线性预热调度器并使用了早停。
对所有模型使用硬投票集成。
xlm-roberta-large 硬投票得分:0.757 / 0.728
muril 硬投票得分:0.764 / 0.754
rembert 硬投票得分:0.755 / 0.731
所有模型硬投票得分:0.801 / 0.772
然后我调整了超参数并使用了其他数据集(XQA_tamil, translated_tamil 等),我提高了分数,我的最终提交如下。
所有模型硬投票得分:0.808 / 0.770
所有模型 + xlm-roberta-large(基于分数的集成)+ muril(基于分数的集成):0.808 / 0.770
恭喜大家完成比赛,下场比赛见。