返回列表

43rd Place Solution

463. chaii - Hindi and Tamil Question Answering | chaii-hindi-and-tamil-question-answering

开始: 2021-08-11 结束: 2021-11-15 自然语言处理 数据算法赛
第43名方案

第43名方案

作者: Dannykm, relilau, Dayeong Kim
比赛排名: 第43名

致谢

首先,我们要感谢 Kaggle 和 Google 研究团队。同时,也要感谢所有参与本次竞赛的每一个人(特别是 @kishalmandal 和 @tkm2261)。

解决方案

模型: deepset/xlm-roberta-large-squad2(单模型)

数据:

  • 竞赛数据集 + MLQA + XQUAD(5 折)
  • 竞赛数据集 + MLQA + XQUAD + squad_translated_tamil(5 折)
  • 竞赛数据集 + MLQA + XQUAD + squad_translated_tamil + Google 翻译的印地语和泰米尔语 SQuAD2.0(2 折)

策略

  1. 我们主要采用了多折软投票。我们推测我们的 12 折模型(公榜 LB: 0.778)在私榜上的表现会优于 5 折模型(公榜 LB: 0.792),因为 5 折模型似乎仅是为了在公榜上表现良好而筛选出来的。幸运的是,事实确实如此。(12 折私榜 LB: 0.740,5 折私榜 LB: 0.727)

  2. 虽然单独提交的分数并不是很高(公榜 LB 0.685),但几折使用了 Google 翻译 SQuAD2.0 额外数据的模型在集成中效果很好(LB 提高了 0.004)。我们猜测这可能有助于增加我们最终提交结果的多样性。

  3. 为了应对 0.792 分的模型在私榜上表现可能更好的情况,我们将 0.792 的 5 折模型加入到了我们的 12 折模型中,并最终确定了提交选择(从 12 折变为 17 折)。

  4. 我们尝试了硬投票集成,但其 LB 分数总是低于软投票(低 0.001-0.005)。

同比赛其他方案