返回列表

13th Place Solution

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现 数据算法赛
第 13 名解决方案

第 13 名解决方案

作者: RB
队友: @nbroad, @benbla
排名: 13 / 竞赛解决方案
发布时间: 2025-09-11

感谢 Kaggle 和 MDC 举办此次比赛。虽然我们再次以一名之差错失金牌感到失望 🫠,但我们感激这次学习和成长的机会。

问题

比赛要求从 Europe PMC 的科学文献中识别和分类数据引用。给定研究论文的 PDF/XML 文本,我们需要:

  1. 检测 所有数据集引用(DOI 和登录号 ID)
  2. 分类 每个引用为:
    • 主要 (Primary): 为本研究专门生成的数据
    • 次要 (Secondary): 从现有来源复用的数据

查看更多信息 -

https://www.kaggle.com/competitions/make-data-count-finding-data-references/overviewhttps://www.kaggle.com/competitions/make-data-count-finding-data-references/data


示例: 论文 10.1021/jacs.2c06519

  • Ground Truth 标签:
    • https://doi.org/10.25377/sussex.21184705 (主要)
    • https://doi.org/10.25377/sussex.21184705.v1 (主要)
    • PDF 中的实际文本包含:
    • 10.25377/sussex.21184705 (无版本号)

外部数据集

我们利用了以下外部数据源:


解决方案概述

两个独立的 pipeline 架构

两个 Pipeline 因为一个不够 - :) - 一个用于 DOI,一个用于登录号 ID

Pipeline 1: DOI 引用

输入: GROBID 生成的 XML + Data Citation Corpus

过程:

  1. 从 Data Citation Corpus 中的已知引用开始
  2. 解析 GROBID XML 以进行结构化引用提取和格式统一
  3. 提取特征 - 作者、摘要、标题、章节等
  4. Qwen2.5 32B LLM (vLLM 推理)

Pipeline 2: 登录号 ID 引用

输入: 仅提供 XML(无 PDF)+ Europe PMC Text-Mined Terms
训练集中的所有登录号引用都能在 XML 中找到,这也意味着如果文章没有 XML(只有 PDF)- 它就没有登录号引用。

过程:

  1. Europe PMC Text-Mined Terms 提取已知登录号 ID
  2. 映射 PMCID → DOI 用于论文识别
  3. 排除 - GO:, HGNC:, GCA_, 10. -> 假设 - 这些是 EUPMC 认为是数据集但比赛不考虑的引用。
  4. Qwen2.5 32B LLM (vLLM 推理)
  5. 删除重复项和低置信度预测

合并

合并两个 pipeline 的输出 - 排除 figshare 和 hepdata 引用(公共 LB 提升 0.004)。这两个引用仅出现在训练集的缺失标签中。

其他数据集洞察

  • 如果文章有 DOI 引用,它就不能有登录号 ID 引用(DOI 文章和登录号 ID 文章是互斥的)- 我们错过了选择这个 0.742 私有提交(金牌),因为它在公共 LB 上不起作用。

  • 训练集中的所有登录号引用都能在 XML 中找到,这也意味着如果文章没有 XML(只有 PDF)- 它就没有登录号引用。

  • 所有 IPR 引用都是次要的,比赛不考虑软件程序作为数据集引用。

  • DOI 引用可用於 PDF _only_ 或 XML_only_ 或两者

无效的方法

  • 修复版本控制(如上面的示例)
  • 微调分类器
  • 没有外部数据的直接正则表达式方法
  • 其他模型如 Qwen72B, 14B
  • 用 GPT OSS 标记开放访问数据

最后,非常感谢我的出色队友 🌟 @nbroad 和 🌟 @benbla 在这次比赛中的辛勤工作和合作!!

同比赛其他方案