6th place solution (lucky novices!)

第6名解决方案 (幸运的新手！)

作者： Diego Passadore, Federico Matorra
比赛排名： 第6名

我和我的队友 @federicomatorra 是一对幸运的新手！但我不得不说，这绝非仅靠运气，我们投入了大量时间思考并实施了一套策略，最终结果令人满意。

我们非常确定，私有测试集是一个完全不同的问题，因此重要的是要想出一个好的统计方法，但同时也面临着资源匮乏和对NLP最新发展不了解的额外限制。

总而言之，虽然我们评估了许多想法，但我们最终使用了 spaCy 2 (v2.spacy.io) 分两步进行文本分类：第一步用于分离句子（即提及数据集的句子与完全没有数据集的句子），第二步用于识别数据集与组织（ORGs）、地点（LOCs）等实体，以及许多其他缩写和名称，这些在我们看来只是误报。

为了训练文本分类模型，我们使用了提供的用于训练的数据集名称，并设法使用缩写检测器 (https://allenai.github.io/scispacy/) 创建了一个包含相应缩写（正面和负面）的额外数据集名称列表，并匹配了诸如 dataset, databank, survey 等词汇。

我们认为这种方法足够简单，可以快速训练和测试，同时也足够灵活，以适应未知的出版物。

获得第6名成绩的笔记本是文本匹配和上述方法的混合体，但正如我所说，在我们看来，公开和私有文档集是两个完全不同的世界，因此仅靠字符串匹配是不可能进入前十名的。

我们要感谢组织者，并祝贺众多的参与者，特别是那些获得奖牌位置的选手。同时，也要认可 Coleridge 在建立训练和测试集方面所做的工作。

第6名解决方案 (幸运的新手！)