666. Make Data Count - Finding Data References | make-data-count-finding-data-references
感谢 Kaggle 和 MDC 举办此次比赛。虽然我们再次以一名之差错失金牌感到失望 🫠,但我们感激这次学习和成长的机会。
比赛要求从 Europe PMC 的科学文献中识别和分类数据引用。给定研究论文的 PDF/XML 文本,我们需要:
查看更多信息 -
https://www.kaggle.com/competitions/make-data-count-finding-data-references/overview 和 https://www.kaggle.com/competitions/make-data-count-finding-data-references/data
示例: 论文 10.1021/jacs.2c06519
https://doi.org/10.25377/sussex.21184705 (主要)https://doi.org/10.25377/sussex.21184705.v1 (主要)10.25377/sussex.21184705 (无版本号)我们利用了以下外部数据源:
两个 Pipeline 因为一个不够 - :) - 一个用于 DOI,一个用于登录号 ID
输入: GROBID 生成的 XML + Data Citation Corpus
过程:
输入: 仅提供 XML(无 PDF)+ Europe PMC Text-Mined Terms
训练集中的所有登录号引用都能在 XML 中找到,这也意味着如果文章没有 XML(只有 PDF)- 它就没有登录号引用。
过程:
合并两个 pipeline 的输出 - 排除 figshare 和 hepdata 引用(公共 LB 提升 0.004)。这两个引用仅出现在训练集的缺失标签中。
如果文章有 DOI 引用,它就不能有登录号 ID 引用(DOI 文章和登录号 ID 文章是互斥的)- 我们错过了选择这个 0.742 私有提交(金牌),因为它在公共 LB 上不起作用。
训练集中的所有登录号引用都能在 XML 中找到,这也意味着如果文章没有 XML(只有 PDF)- 它就没有登录号引用。
所有 IPR 引用都是次要的,比赛不考虑软件程序作为数据集引用。
DOI 引用可用於 PDF _only_ 或 XML_only_ 或两者