463. chaii - Hindi and Tamil Question Answering | chaii-hindi-and-tamil-question-answering
我要感谢 Google Research 和 Kaggle 举办这次比赛,通过这次比赛,我在 NLP 领域获得了很多经验。这是我在 Kaggle 上的第一次 NLP 比赛,我很高兴能获得银牌,这将暂时使我成为 Kaggle 比赛专家。😃
我训练了以下模型:XLM-Roberta-large、MURIL、REMBERT 以及在 XQUAD 上训练的 BERT。这里所有的模型都进行了 5 折交叉验证训练,并使用了额外数据:MLQA、印地语 xQuad 和泰米尔语翻译的 SQUAD。
| 模型名称 | H & T 切分 | 公共排行榜分数 |
|---|---|---|
| XLM Roberta Large | 否 | 0.771 |
| XLM Roberta Large | 是 | 0.754 |
| MURIL | 是 | 0.738 |
| Rembert | 否 | 0.788 |
| BERT | 否 | 0.642 |
| InfoXLM | 否 | 0.714 |
我的最终模型是基于 Rembert 的单模型五折集成,该模型使用了 MLQA、XQUAD 和泰米尔语翻译 SQUAD 的额外数据进行训练。
我本想尝试集成多个模型,但平均分数似乎不起作用,而且因为我是在最后一周才开始认真参加比赛,我没有时间去研究像许多其他解决方案那样的投票流程。
我尝试的第二种方法是使用 mT5-base transformer 构建文本到文本的 transformer 模型。这种方法显示出了希望,因为它是唯一一个能预测出所有正确字母的方法,但我面临一个独特而奇怪的问题,那就是单词之间的空格都没有被预测出来。因此,我无法对该模型的输出进行适当的后处理以获得合格的提交结果。如果 Kaggle 社区有人能帮我解决这个问题,我将不胜感激。