返回列表

5th place solution

443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data

开始: 2021-03-23 结束: 2021-06-22 文献与知识发现 数据算法赛
第5名解决方案

第5名解决方案

作者: Kramarenko Vladislav (Grandmaster)
发布时间: 2021-06-23

感谢主办方举办了这场有趣的比赛。

我的方案

我尝试了两种方法(未使用数据集标签字符串匹配):

  • 正则表达式 - 0.5/0.56
  • BERT NER - 0.37/0.52

集成模型、在已知数据集中搜索以及其他基于BERT的方法并没有改善结果。

正则表达式

  • 寻找大写字母
  • 寻找包含这些字母的邻近单词
  • 直接寻找以大写字母开头的单词
  • 我记下所有找到的结果,并在其他文档中进行搜索

BERT NER

  • 我将文档分割成 200-400 个字符的句子
  • 筛选潜在的候选者
  • 我选取了 90% 带有标签的句子和 10% 不带标签的句子
  • 使用 3 个类别 - 无类别、数据集名称的首词和数据集名称的尾词
  • 进行预测并筛选出优秀的候选者
同比赛其他方案