返回列表

40th place solution

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现 数据算法赛
第 40 名解决方案

第 40 名解决方案

作者: Imdadul hasan hamim, Jokhrof Ahmed Doha
发布日期: 2025-09-10
竞赛排名: 40

DOIs (数字对象标识符)

  1. 文本提取:从 PDF 文档中提取原始文本。
  2. 正则识别:使用正则表达式识别潜在的 DOI 字符串。
  3. 语料库匹配:将提取的 DOI 与数据引用语料库数据集进行比对。
    • 如果 DOI 匹配,则保留。
    • 如果未找到匹配项,则丢弃。
  4. 分类:使用大型语言模型(LLM)将保留的 DOI 分类为主要(Primary)或次要(Secondary)。

Accession IDs (登录号)

  1. 正则识别:使用正则表达式直接从文本中提取登录号。
  2. 分类:将提取的登录号分类为主要或次要类别。

实验与观察

DOI 过滤

  1. 尝试使用 LLM 过滤假阳性。
  2. 虽然这种方法效果尚可,但语料库匹配提供了更可靠的结果和更高的准确性评分。

登录号过滤

  1. 尝试应用 LLM 过滤错误的登录号。
  2. 然而,与直接分类相比,这种方法并没有提高性能。
同比赛其他方案