返回列表

6th Place Solution

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现 数据算法赛
第六名解决方案 - Team Team

Team Team — 第六名解决方案

作者: Yurnero (Grandmaster)

发布时间: 2025-09-10

团队成员: Christopher Akiki (Master), conor (Grandmaster), Yurnero (Grandmaster)

竞赛排名: 第 6 名

数据来源

  • DCC4: 所有 DOI,来源为 "eupmc" 的 Accession IDs(排除 GCA/HGNC/dbGaP,因为在公共测试集中有很多假阳性 (FP))。
  • Europe PMC (TextMinedTerms): Accession IDs(在所有提交中排除 GO/RRID/OMIM,因为在公共测试集中有很多假阳性 (FP))。

注意:包含以下数据库 NCT/EudraCT/EBiSC/ChEBI/EFO 并没有改变公共排行榜 (LB) 分数。因此,要么来自这些数据库的文章在私有测试集中,要么根本不存在。我们探测了其中一些,发现第一种情况成立。为了增加提交版本的多样性,我们在 2 个最终提交版本中的一个中排除了它们。结果是,我们的两个私有提交版本分数相同,所以这些文章是稀疏标注的(即带有 "Missing" 标签)。

DOI / 登录号 ID 检索

  • DOIs:
    如果未标准化的 DOI 出现在 PDF 文本的任何位置,则包含;如果 DOI 来自 eLife 文章,我们还会查看 XML。如果 DOI 来自 Dryad/Zenodo/f1000,我们还会检查 PDF 文本中是否出现了不含最终版本(".v1" 等)的 DOI、等效的 Zenodo 记录 URL 或基础数据集记录。
  • Accession IDs:
    如果 Accession ID 出现在 PDF 文本或 XML 的任何位置,则包含;如果 Accession ID 是 SAMN,我们仅查看 PDF 文本。

基于启发式的分类

  • DOIs(所有规则按以下顺序检查):
    • 默认为主要引用 (Primary);
    • 如果 DOI 有多个日期对应的多个条目,且当前 article_id 属于较晚的日期之一,则为次要引用 (Secondary);
    • 如果 DOI 仅出现在论文的参考文献部分,则为次要引用 (Secondary);
    • 如果找到的 DOI 超过 4 个,则为次要引用 (Secondary);
    • 如果论文作者与 DOI 后紧接着出现的参考文献不重叠,即 "(Smith, J., 2019)",则为次要引用 (Secondary);
    • 如果 DOI 来自 Dryad/Zenodo/f1000,则为主要引用 (Primary);
    • 如果论文作者与 DOI 参考文献同一句子中列出的名称重叠,即自引,则为主要引用 (Primary);
    • 如果任何特定的上下文短语(例如 "we have deposited", "have been submitted" 等)与 DOI 参考文献在同一句子中,则为主要引用 (Primary)。
  • Accession IDs(所有规则按以下顺序检查):
    • 默认为次要引用 (Secondary);
    • 如果是 SAMN 则为主要引用 (Primary)(在我们的一个最终提交版本中);如果是 SAMN 且任何术语 SAMN/SAMD/BioSample/BioProject 出现在任何数量的上下文短语附近,则为主要引用 (Primary)(在我们的另一个最终提交版本中);
    • 如果 Accession ID 与若干上下文短语出现在同一句子中,则为主要引用 (Primary)。

其他说明

  • 如果文章 ID 中包含 "eLife",则跳过所有 DOI;如果文章 ID 中包含 "elife",则跳过所有 Accession IDs。这只是来自训练数据的观察结果。
同比赛其他方案