返回列表

6th place solution (lucky novices!)

443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data

开始: 2021-03-23 结束: 2021-06-22 文献与知识发现 数据算法赛
第6名解决方案 (幸运的新手!)

第6名解决方案 (幸运的新手!)

作者: Diego Passadore, Federico Matorra
比赛排名: 第6名

我和我的队友 @federicomatorra 是一对幸运的新手!但我不得不说,这绝非仅靠运气,我们投入了大量时间思考并实施了一套策略,最终结果令人满意。

我们非常确定,私有测试集是一个完全不同的问题,因此重要的是要想出一个好的统计方法,但同时也面临着资源匮乏和对NLP最新发展不了解的额外限制。

总而言之,虽然我们评估了许多想法,但我们最终使用了 spaCy 2 (v2.spacy.io) 分两步进行文本分类:第一步用于分离句子(即提及数据集的句子与完全没有数据集的句子),第二步用于识别数据集与组织(ORGs)、地点(LOCs)等实体,以及许多其他缩写和名称,这些在我们看来只是误报。

为了训练文本分类模型,我们使用了提供的用于训练的数据集名称,并设法使用缩写检测器 (https://allenai.github.io/scispacy/) 创建了一个包含相应缩写(正面和负面)的额外数据集名称列表,并匹配了诸如 dataset, databank, survey 等词汇。

我们认为这种方法足够简单,可以快速训练和测试,同时也足够灵活,以适应未知的出版物。

获得第6名成绩的笔记本是文本匹配和上述方法的混合体,但正如我所说,在我们看来,公开和私有文档集是两个完全不同的世界,因此仅靠字符串匹配是不可能进入前十名的。

我们要感谢组织者,并祝贺众多的参与者,特别是那些获得奖牌位置的选手。同时,也要认可 Coleridge 在建立训练和测试集方面所做的工作。

同比赛其他方案