返回列表

33rd place solution: pre- and postprocessing

443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data

开始: 2021-03-23 结束: 2021-06-22 文献与知识发现 数据算法赛
第33名方案:预处理与后处理

第33名方案:预处理与后处理

作者: John Doge
比赛排名: 第33名

我只花了几天时间来研究这个问题,所以我得到的主要见解如下:

  1. 在进行词性标注(POS-tagging)后,几乎每个数据集字符串都会转换成一个专有名词链。
  2. 无论是在训练集还是测试集中,数据集的数量都是有限的。

我的想法是,如果在训练时使用 'PROPN'(专有名词)标签代替原始字符串,并在训练后应用基于频率的过滤,那么即使是一个较弱的模型也能展现出泛化能力。总的来说,我的流程包含四个部分:

  1. 将每个专有名词链替换为单个标记。例如,"Entity typing on the Open Entity dataset (Choi et al., 2018)" 会变成 "Entity typing on the PROPN dataset (PROPN, 2018)"。
  2. 训练一个简单的标记分类模型(大多数基于Transformer的模型都可以胜任)。
  3. 使用输出概率阈值来收集排名靠前的文档候选。
  4. 将所有收集到的 'PROPN' 标记解码回原始字符串,并根据频率进行过滤。

基于第4步的实现,该算法能够在私有排行榜上达到约0.4的分数(并且经常能发现那些看起来合法但标注中缺失的数据集提及)。

同比赛其他方案