问题

比赛要求从 Europe PMC 的科学文献中识别和分类数据引用。给定研究论文的 PDF/XML 文本，我们需要：

示例: 论文 10.1021/jacs.2c06519

Ground Truth 标签:
- https://doi.org/10.25377/sussex.21184705 (主要)
- https://doi.org/10.25377/sussex.21184705.v1 (主要)
- PDF 中的实际文本包含:
- 10.25377/sussex.21184705 (无版本号)

外部数据集

我们利用了以下外部数据源：

两个 Pipeline 因为一个不够 - :) - 一个用于 DOI，一个用于登录号 ID

输入: GROBID 生成的 XML + Data Citation Corpus

过程:

输入: 仅提供 XML（无 PDF）+ Europe PMC Text-Mined Terms
训练集中的所有登录号引用都能在 XML 中找到，这也意味着如果文章没有 XML（只有 PDF）- 它就没有登录号引用。

过程:

合并两个 pipeline 的输出 - 排除 figshare 和 hepdata 引用（公共 LB 提升 0.004）。这两个引用仅出现在训练集的缺失标签中。

如果文章有 DOI 引用，它就不能有登录号 ID 引用（DOI 文章和登录号 ID 文章是互斥的）- 我们错过了选择这个 0.742 私有提交（金牌），因为它在公共 LB 上不起作用。
训练集中的所有登录号引用都能在 XML 中找到，这也意味着如果文章没有 XML（只有 PDF）- 它就没有登录号引用。
所有 IPR 引用都是次要的，比赛不考虑软件程序作为数据集引用。
DOI 引用可用於 PDF _only_ 或 XML_only_ 或两者

最后，非常感谢我的出色队友 🌟 @nbroad 和 🌟 @benbla 在这次比赛中的辛勤工作和合作！！