40th place solution

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现数据算法赛

第 40 名解决方案

第 40 名解决方案

作者: Imdadul hasan hamim, Jokhrof Ahmed Doha
发布日期: 2025-09-10
竞赛排名: 40

DOIs (数字对象标识符)

文本提取：从 PDF 文档中提取原始文本。
正则识别：使用正则表达式识别潜在的 DOI 字符串。
语料库匹配：将提取的 DOI 与数据引用语料库数据集进行比对。
- 如果 DOI 匹配，则保留。
- 如果未找到匹配项，则丢弃。
分类：使用大型语言模型（LLM）将保留的 DOI 分类为主要（Primary）或次要（Secondary）。

Accession IDs (登录号)

正则识别：使用正则表达式直接从文本中提取登录号。
分类：将提取的登录号分类为主要或次要类别。

实验与观察

DOI 过滤

尝试使用 LLM 过滤假阳性。
虽然这种方法效果尚可，但语料库匹配提供了更可靠的结果和更高的准确性评分。

登录号过滤

尝试应用 LLM 过滤错误的登录号。
然而，与直接分类相比，这种方法并没有提高性能。

同比赛其他方案

1st Place Solution

2nd Place Solution [Updated]

3rd Place Solution

4th Place Solution

5th Place - by standing on the shoulders of Giants