20th Place Solution: Regex + Qwen + DeBERTa for MDC

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现数据算法赛

第 20 名解决方案：MDC 的 Regex + Qwen + DeBERTa

第 20 名解决方案：MDC 的 Regex + Qwen + DeBERTa

作者：Kawchar Husain

发布日期：2025-09-10

竞赛排名：第 20 名

存取号 (Accession IDs)

使用正则表达式模式提取候选项。
微调 DeBERTa 以过滤误报。
某些 ID 类型始终直接映射为 Secondary。
对于其余部分，使用 QLoRA 微调 Qwen2.5-3B (base)：
- 输入 = 标识符 + 上下文（采用带有提示的结构化模板）。
- 表示 = 全局均值 + 目标跨度均值池化。
- 添加了一个 跨度门控 GELU 分类头。

数字对象标识符 (DOIs)

使用正则表达式 (10.\d{4,9}) 提取 DOI 前缀，并移除非数据前缀。
使用 Qwen3-4B 在噪声窗口中检测 DOI。
应用 DeBERTa 过滤误报。
对于分类：
- 使用 Qwen2.5-14B 提取论文标题和作者列表。
- 与上下文组合作为输入传给 Light-R1-14B-awq。
- 决策规则：
  1. 检查 DOI 是数据还是非数据。
  2. 如果有作者信息，根据个人重叠情况决定。
  3. 如果缺少作者信息，使用上下文线索。
  4. 如果仍不清楚，分配为 None。

数据与标签

训练数据来自 MDC 语料库 v3.0 和 v4.1。
标签由 GPT-5, Qwen3-30B-thinking, Qwen2.5-72B, LLaMA-70B 的共识生成。
计划对 DOI 进行 Light-R1 微调，但由于标签问题未能完成。

同比赛其他方案

1st Place Solution

2nd Place Solution [Updated]

3rd Place Solution

4th Place Solution

5th Place - by standing on the shoulders of Giants