返回列表

12th place solution

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现 数据算法赛
第 12 名解决方案 - Make Data Count

第 12 名解决方案

作者: Yuki Okumura

队友: @chome0910, @takai380

发布日期: 2025-09-10

竞赛排名: 12

感谢所有参与组织本次比赛的人员、所有参赛者以及我的队友 @chome0910@takai380

候选提取

  • 所有 DOI 均来自 MDC Data Citation Corpus v4,仅使用 datacite 来源。
    • 过滤掉包含 figshare 的 DOI。
  • 所有 Accession ID 均来自 EuropePMC
    • 过滤掉包含 :GCA 的 ID。

类型分类

DOI

利用上下文和元数据基于 LLM 的分类。

  • Qwen2.5-72B-Instruct-AWQ (零样本)
  • 输入特征
    • 上下文(约 3000 字符)
    • 基于数据引用语料库的特征
      • 数据集引用次数
      • 是否为语料库中引用该数据集的第一篇论文
      • 从数据集发布日期到论文发表日期经过的天数
    • 论文和数据集元数据
      • 标题
      • 作者
      • 摘要
  • 强制二元选择(A: 主要 / B: 次要)并选择 logit 较大的选项。

Accession ID

基于规则的分类。

  • 除了与 biosample 相关的 Accession ID 外,其余全部分类为次要。
  • 如果 ID 签发与论文发表之间相隔超过三年,Biosample Accession ID 被分类为次要;否则为主要。

未奏效的方法

  • 基于 LLM 的 Accession ID 类型分类
同比赛其他方案