5th place solution

443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data

开始: 2021-03-23 结束: 2021-06-22 文献与知识发现数据算法赛

第5名解决方案

第5名解决方案

作者: Kramarenko Vladislav (Grandmaster)
发布时间: 2021-06-23

感谢主办方举办了这场有趣的比赛。

我的方案

我尝试了两种方法（未使用数据集标签字符串匹配）：

正则表达式 - 0.5/0.56
BERT NER - 0.37/0.52

集成模型、在已知数据集中搜索以及其他基于BERT的方法并没有改善结果。

正则表达式

寻找大写字母
寻找包含这些字母的邻近单词
直接寻找以大写字母开头的单词
我记下所有找到的结果，并在其他文档中进行搜索

BERT NER

我将文档分割成 200-400 个字符的句子
筛选潜在的候选者
我选取了 90% 带有标签的句子和 10% 不带标签的句子
使用 3 个类别 - 无类别、数据集名称的首词和数据集名称的尾词
进行预测并筛选出优秀的候选者

查看代码 Kaggle Notebook: coleridge-initiative-5th-place-solution

同比赛其他方案

1st place solution: Metric learning and GPT

2nd place solution overview

4th place solution - LB probing, acronym detection, and NER

6th place solution (lucky novices!)

13th place solution