43rd Place Solution

463. chaii - Hindi and Tamil Question Answering | chaii-hindi-and-tamil-question-answering

开始: 2021-08-11 结束: 2021-11-15 自然语言处理数据算法赛

第43名方案

第43名方案

作者： Dannykm, relilau, Dayeong Kim
比赛排名： 第43名

致谢

首先，我们要感谢 Kaggle 和 Google 研究团队。同时，也要感谢所有参与本次竞赛的每一个人（特别是 @kishalmandal 和 @tkm2261）。

解决方案

模型： deepset/xlm-roberta-large-squad2（单模型）

数据：

竞赛数据集 + MLQA + XQUAD（5 折）
竞赛数据集 + MLQA + XQUAD + squad_translated_tamil（5 折）
竞赛数据集 + MLQA + XQUAD + squad_translated_tamil + Google 翻译的印地语和泰米尔语 SQuAD2.0（2 折）

策略

我们主要采用了多折软投票。我们推测我们的 12 折模型（公榜 LB: 0.778）在私榜上的表现会优于 5 折模型（公榜 LB: 0.792），因为 5 折模型似乎仅是为了在公榜上表现良好而筛选出来的。幸运的是，事实确实如此。（12 折私榜 LB: 0.740，5 折私榜 LB: 0.727）
虽然单独提交的分数并不是很高（公榜 LB 0.685），但几折使用了 Google 翻译 SQuAD2.0 额外数据的模型在集成中效果很好（LB 提高了 0.004）。我们猜测这可能有助于增加我们最终提交结果的多样性。
为了应对 0.792 分的模型在私榜上表现可能更好的情况，我们将 0.792 的 5 折模型加入到了我们的 12 折模型中，并最终确定了提交选择（从 12 折变为 17 折）。
我们尝试了硬投票集成，但其 LB 分数总是低于软投票（低 0.001-0.005）。

同比赛其他方案

1st Place Solution

Tentative 2nd place solution

3rd Place Solution

4th Place Solution

5th Place Solution