24th place solution & attempt – only with XLM-RoBERTa🍵

第24名解决方案与尝试 – 仅使用XLM-RoBERTa🍵

作者：esprit (Master) | 排名：第24名 | 发布时间：2021-11-16

感谢 Kaggle 和主办方提供了这次有趣的比赛机会。

老实说，我不明白如何将使用不同分词器的模型（如 XLM-Roberta 和 Muril）进行集成。因此，我只使用 XLM-Roberta 来创建模型，我认为这就是我的分数没有足够提高的原因。现在我对其他人的解决方案以及他们如何进行集成印象深刻。

在比赛开始时，我首先进行了数据增强。我尝试使用 Google 翻译创建 SQUAD 的印地语和泰米尔语版本，正如许多人现在所做的那样。然而，这非但没有提高我的分数，反而显著降低了分数。我立即放弃了这个想法。
我尝试制作单独的印地语和泰米尔语模型。这也显著降低了我的分数。我利用这一事实反推，猜测添加来自其他相似语言的数据应该会提高分数。
我决定将 TyDi-QA 的孟加拉语和泰卢固语数据加入研究。我认为我的分数有了相当不错的提升。（由于 CV 和 LB 都不稳定，很难确切展示提高了多少。）
我清理了训练数据的上下文。首先，我删除了无用的换行符和空格，但这对分数没有影响。接下来，我使用正则表达式自动删除了维基百科源代码中看起来像标签的字符串。这也没有引起分数的显著变化。
我创建了多个模型，并通过以各种方式更改 max_length（上下文划分的单位）来集成它们，例如 320、384 和 448。这是受我之前在黑色素瘤比赛中的经验启发，当时我们通过创建不同图像尺寸的模型提高了分数。结果，我的分数显著提高了。
当我以各种方式更改 doc_stride（拆分上下文时的重叠长度）时，我注意到分数波动很大。在我的 CV 实验中，对于 max_length=512，我在 doc_stride=150~190 的范围内获得了相对较高的分数。最后，我选择了 doc_stride=176,180，但分数非常不稳定，很难决定一个 doc_stride。在某种程度上，我认为这次比赛有“doc_stride 彩票”的成分（实际上并没有）。

我想知道从一开始就占据榜首位置的团队 "tkm kh" 和 "zzy + Zacchaeus" 到底意识到了什么，我也想弄明白。我学到了很多。

@thedrcat，祝贺你获胜！我可以从你的解决方案中学到很多。

@tkm2261、@kanbehmw、@zzy990106、@zacchaeus 以及所有其他参与者都值得我的尊敬🍵

24th place solution & attempt – only with XLM-RoBERTa🍵

第24名解决方案与尝试 – 仅使用XLM-RoBERTa🍵

同比赛其他方案