47th place solution - no training, no dataset label string matching

第47名方案 - 无训练，无数据集标签字符串匹配

作者: Nicholas Broad | 比赛排名: 第47名

是的，你没看错。我尝试训练的所有模型都比预训练模型的表现要差。

受到这篇关于MRC（机器阅读理解）用于NER（命名实体识别）的论文的启发，我在Hugging Face模型库上测试了许多问答模型，看看哪些模型能够从句子中提取数据集名称。最终我使用了一个在SQuAD v2上训练的ELECTRA模型。

我训练了DistilBERT、RoBERTa和fastText模型来判断一个句子是否包含数据集，遗憾的是，使用正则表达式搜索“Data”或“Survey”等单词的效果最好。我认为正则表达式的优势在于它比其他方法具有更高的精确度。我相信如果我知道如何更好地微调问答模型，我在排行榜上的名次会更高。考虑到完全没有训练……这结果还不错。

简而言之：

利用字符串匹配来查找提及数据集的句子。
如果概率高于某个阈值，则使用问答模型提取名称。例如，提问“所使用的数据源是什么？”

非常疯狂的是，这帮助我从公共排行榜到私有排行榜上升了1400个名次！

代码笔记本 点击查看 Kaggle Notebook 详情

47th place solution - no training, no dataset label string matching

第47名方案 - 无训练，无数据集标签字符串匹配

同比赛其他方案