返回列表

20th Place Solution: Regex + Qwen + DeBERTa for MDC

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现 数据算法赛
第 20 名解决方案:MDC 的 Regex + Qwen + DeBERTa

第 20 名解决方案:MDC 的 Regex + Qwen + DeBERTa

作者:Kawchar Husain

发布日期:2025-09-10

竞赛排名:第 20 名

存取号 (Accession IDs)

  • 使用正则表达式模式提取候选项。
  • 微调 DeBERTa 以过滤误报。
  • 某些 ID 类型始终直接映射为 Secondary
  • 对于其余部分,使用 QLoRA 微调 Qwen2.5-3B (base)
    • 输入 = 标识符 + 上下文(采用带有提示的结构化模板)。
    • 表示 = 全局均值 + 目标跨度均值池化。
    • 添加了一个 跨度门控 GELU 分类头

数字对象标识符 (DOIs)

  • 使用正则表达式 (10.\d{4,9}) 提取 DOI 前缀,并移除非数据前缀。
  • 使用 Qwen3-4B 在噪声窗口中检测 DOI。
  • 应用 DeBERTa 过滤误报。
  • 对于分类:
    • 使用 Qwen2.5-14B 提取论文标题和作者列表。
    • 与上下文组合作为输入传给 Light-R1-14B-awq
    • 决策规则:
      1. 检查 DOI 是数据还是非数据。
      2. 如果有作者信息,根据个人重叠情况决定。
      3. 如果缺少作者信息,使用上下文线索。
      4. 如果仍不清楚,分配为 None。

数据与标签

  • 训练数据来自 MDC 语料库 v3.0 和 v4.1。
  • 标签由 GPT-5, Qwen3-30B-thinking, Qwen2.5-72B, LLaMA-70B 的共识生成。
  • 计划对 DOI 进行 Light-R1 微调,但由于标签问题未能完成。
同比赛其他方案