443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data
是的,你没看错。我尝试训练的所有模型都比预训练模型的表现要差。
受到这篇关于MRC(机器阅读理解)用于NER(命名实体识别)的论文的启发,我在Hugging Face模型库上测试了许多问答模型,看看哪些模型能够从句子中提取数据集名称。最终我使用了一个在SQuAD v2上训练的ELECTRA模型。
我训练了DistilBERT、RoBERTa和fastText模型来判断一个句子是否包含数据集,遗憾的是,使用正则表达式搜索“Data”或“Survey”等单词的效果最好。我认为正则表达式的优势在于它比其他方法具有更高的精确度。我相信如果我知道如何更好地微调问答模型,我在排行榜上的名次会更高。考虑到完全没有训练……这结果还不错。
简而言之:
非常疯狂的是,这帮助我从公共排行榜到私有排行榜上升了1400个名次!