第5名解决方案
第5名解决方案
作者: Kramarenko Vladislav (Grandmaster)
发布时间: 2021-06-23
感谢主办方举办了这场有趣的比赛。
我的方案
我尝试了两种方法(未使用数据集标签字符串匹配):
- 正则表达式 - 0.5/0.56
- BERT NER - 0.37/0.52
集成模型、在已知数据集中搜索以及其他基于BERT的方法并没有改善结果。
正则表达式
- 寻找大写字母
- 寻找包含这些字母的邻近单词
- 直接寻找以大写字母开头的单词
- 我记下所有找到的结果,并在其他文档中进行搜索
BERT NER
- 我将文档分割成 200-400 个字符的句子
- 筛选潜在的候选者
- 我选取了 90% 带有标签的句子和 10% 不带标签的句子
- 使用 3 个类别 - 无类别、数据集名称的首词和数据集名称的尾词
- 进行预测并筛选出优秀的候选者