第33名方案:预处理与后处理
第33名方案:预处理与后处理
作者: John Doge
比赛排名: 第33名
我只花了几天时间来研究这个问题,所以我得到的主要见解如下:
- 在进行词性标注(POS-tagging)后,几乎每个数据集字符串都会转换成一个专有名词链。
- 无论是在训练集还是测试集中,数据集的数量都是有限的。
我的想法是,如果在训练时使用 'PROPN'(专有名词)标签代替原始字符串,并在训练后应用基于频率的过滤,那么即使是一个较弱的模型也能展现出泛化能力。总的来说,我的流程包含四个部分:
- 将每个专有名词链替换为单个标记。例如,"Entity typing on the Open Entity dataset (Choi et al., 2018)" 会变成 "Entity typing on the PROPN dataset (PROPN, 2018)"。
- 训练一个简单的标记分类模型(大多数基于Transformer的模型都可以胜任)。
- 使用输出概率阈值来收集排名靠前的文档候选。
- 将所有收集到的 'PROPN' 标记解码回原始字符串,并根据频率进行过滤。
基于第4步的实现,该算法能够在私有排行榜上达到约0.4的分数(并且经常能发现那些看起来合法但标注中缺失的数据集提及)。