第六名解决方案 - Team Team
Team Team — 第六名解决方案
数据来源
- DCC4: 所有 DOI,来源为 "eupmc" 的 Accession IDs(排除 GCA/HGNC/dbGaP,因为在公共测试集中有很多假阳性 (FP))。
- Europe PMC (TextMinedTerms): Accession IDs(在所有提交中排除 GO/RRID/OMIM,因为在公共测试集中有很多假阳性 (FP))。
注意:包含以下数据库 NCT/EudraCT/EBiSC/ChEBI/EFO 并没有改变公共排行榜 (LB) 分数。因此,要么来自这些数据库的文章在私有测试集中,要么根本不存在。我们探测了其中一些,发现第一种情况成立。为了增加提交版本的多样性,我们在 2 个最终提交版本中的一个中排除了它们。结果是,我们的两个私有提交版本分数相同,所以这些文章是稀疏标注的(即带有 "Missing" 标签)。
DOI / 登录号 ID 检索
- DOIs:
如果未标准化的 DOI 出现在 PDF 文本的任何位置,则包含;如果 DOI 来自 eLife 文章,我们还会查看 XML。如果 DOI 来自 Dryad/Zenodo/f1000,我们还会检查 PDF 文本中是否出现了不含最终版本(".v1" 等)的 DOI、等效的 Zenodo 记录 URL 或基础数据集记录。
- Accession IDs:
如果 Accession ID 出现在 PDF 文本或 XML 的任何位置,则包含;如果 Accession ID 是 SAMN,我们仅查看 PDF 文本。
基于启发式的分类
- DOIs(所有规则按以下顺序检查):
- 默认为主要引用 (Primary);
- 如果 DOI 有多个日期对应的多个条目,且当前 article_id 属于较晚的日期之一,则为次要引用 (Secondary);
- 如果 DOI 仅出现在论文的参考文献部分,则为次要引用 (Secondary);
- 如果找到的 DOI 超过 4 个,则为次要引用 (Secondary);
- 如果论文作者与 DOI 后紧接着出现的参考文献不重叠,即 "(Smith, J., 2019)",则为次要引用 (Secondary);
- 如果 DOI 来自 Dryad/Zenodo/f1000,则为主要引用 (Primary);
- 如果论文作者与 DOI 参考文献同一句子中列出的名称重叠,即自引,则为主要引用 (Primary);
- 如果任何特定的上下文短语(例如 "we have deposited", "have been submitted" 等)与 DOI 参考文献在同一句子中,则为主要引用 (Primary)。
- Accession IDs(所有规则按以下顺序检查):
- 默认为次要引用 (Secondary);
- 如果是 SAMN 则为主要引用 (Primary)(在我们的一个最终提交版本中);如果是 SAMN 且任何术语 SAMN/SAMD/BioSample/BioProject 出现在任何数量的上下文短语附近,则为主要引用 (Primary)(在我们的另一个最终提交版本中);
- 如果 Accession ID 与若干上下文短语出现在同一句子中,则为主要引用 (Primary)。
其他说明
- 如果文章 ID 中包含 "eLife",则跳过所有 DOI;如果文章 ID 中包含 "elife",则跳过所有 Accession IDs。这只是来自训练数据的观察结果。