33rd place solution: pre- and postprocessing

第33名方案：预处理与后处理

作者： John Doge
比赛排名： 第33名

我只花了几天时间来研究这个问题，所以我得到的主要见解如下：

我的想法是，如果在训练时使用 'PROPN'（专有名词）标签代替原始字符串，并在训练后应用基于频率的过滤，那么即使是一个较弱的模型也能展现出泛化能力。总的来说，我的流程包含四个部分：

将每个专有名词链替换为单个标记。例如，"Entity typing on the Open Entity dataset (Choi et al., 2018)" 会变成 "Entity typing on the PROPN dataset (PROPN, 2018)"。
训练一个简单的标记分类模型（大多数基于Transformer的模型都可以胜任）。
使用输出概率阈值来收集排名靠前的文档候选。
将所有收集到的 'PROPN' 标记解码回原始字符串，并根据频率进行过滤。

基于第4步的实现，该算法能够在私有排行榜上达到约0.4的分数（并且经常能发现那些看起来合法但标注中缺失的数据集提及）。

第33名方案：预处理与后处理