14th Place Solution (with notebooks)

443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data

开始: 2021-03-23 结束: 2021-06-22 文献与知识发现数据算法赛

第14名解决方案 (使用 Notebooks)

第14名解决方案 (使用 Notebooks)

作者: Alex LiChen | 比赛排名: 第14名

离金牌只差一名！我只使用 Kaggle Notebooks 完成了这次比赛：

额外人工标注的数据集标题 (仅来自训练集) https://www.kaggle.com/lichena/coleridgehandlabeled 预处理 https://www.kaggle.com/lichena/coleridge-pre-processing-hand 模型训练 https://www.kaggle.com/lichena/coleridge-ner?scriptVersionId=66238738 模型推理 https://www.kaggle.com/lichena/coleridge-ner-inference

我选出的最高分 Private LB 提交得分为 0.558/.437，而我最好的得分为 0.545/0.444：

我在 BIO 标记的约 200-400 个单词的文本块上微调了 bert-base-cased + crf 模型。
对我来说，关键在于人工标注更大的训练集。我使用正则表达式找到了初始集合，然后遍历模型判断为假阳性的列表，将我认为有效的样本重新归类为正样本集。最终，这个更大的数据集在简单提交时 Public LB 得分为 0.601，一个子集得分为 0.621。
在训练时，我使用了 80% 包含正样本提及的文本块，20% 没有提及的文本块。我尝试过对 20% 包含正样本的文本块进行简单的交叉验证 (CV)，但这在 Private LB 上泛化效果不佳。
我没有使用提供的默认 clean_text() 函数，而是在训练和推理期间保留了大小写和括号内容，这提升了 LB 分数。

给 Kaggle Notebook 用户的建议

如果你像我一样只用 Kaggle Notebooks 参加比赛，这里是我学到的一些技巧：

尽可能使用 CPU - 我会选择 2-3 个文件作为训练集，先用这些测试文件运行所有代码来排查 bug。
建立流程后，从蒸馏模型开始，它们训练更快，能节省 GPU 时间。先在小样本数据上运行。
尽早开始比赛。
寻找具有系统性优势的比赛 - 在这种情况下，人工标注提供了一种我知道其他人不会去尝试复制的“优势”。

同比赛其他方案

1st place solution: Metric learning and GPT

2nd place solution overview

4th place solution - LB probing, acronym detection, and NER

5th place solution

6th place solution (lucky novices!)