返回列表

47th place solution - no training, no dataset label string matching

443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data

开始: 2021-03-23 结束: 2021-06-22 文献与知识发现 数据算法赛
第47名方案 - 无训练,无数据集标签字符串匹配

第47名方案 - 无训练,无数据集标签字符串匹配

作者: Nicholas Broad | 比赛排名: 第47名

是的,你没看错。我尝试训练的所有模型都比预训练模型的表现要差。

受到这篇关于MRC(机器阅读理解)用于NER(命名实体识别)的论文的启发,我在Hugging Face模型库上测试了许多问答模型,看看哪些模型能够从句子中提取数据集名称。最终我使用了一个在SQuAD v2上训练的ELECTRA模型

我训练了DistilBERT、RoBERTa和fastText模型来判断一个句子是否包含数据集,遗憾的是,使用正则表达式搜索“Data”或“Survey”等单词的效果最好。我认为正则表达式的优势在于它比其他方法具有更高的精确度。我相信如果我知道如何更好地微调问答模型,我在排行榜上的名次会更高。考虑到完全没有训练……这结果还不错。

简而言之:

  1. 利用字符串匹配来查找提及数据集的句子。
  2. 如果概率高于某个阈值,则使用问答模型提取名称。例如,提问“所使用的数据源是什么?”

非常疯狂的是,这帮助我从公共排行榜到私有排行榜上升了1400个名次!

同比赛其他方案