第 40 名解决方案
第 40 名解决方案
作者: Imdadul hasan hamim, Jokhrof Ahmed Doha
发布日期: 2025-09-10
竞赛排名: 40
DOIs (数字对象标识符)
- 文本提取:从 PDF 文档中提取原始文本。
- 正则识别:使用正则表达式识别潜在的 DOI 字符串。
- 语料库匹配:将提取的 DOI 与数据引用语料库数据集进行比对。
- 如果 DOI 匹配,则保留。
- 如果未找到匹配项,则丢弃。
- 分类:使用大型语言模型(LLM)将保留的 DOI 分类为主要(Primary)或次要(Secondary)。
Accession IDs (登录号)
- 正则识别:使用正则表达式直接从文本中提取登录号。
- 分类:将提取的登录号分类为主要或次要类别。
实验与观察
DOI 过滤
- 尝试使用 LLM 过滤假阳性。
- 虽然这种方法效果尚可,但语料库匹配提供了更可靠的结果和更高的准确性评分。
登录号过滤
- 尝试应用 LLM 过滤错误的登录号。
- 然而,与直接分类相比,这种方法并没有提高性能。