返回列表

11th Place Solution

618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai

开始: 2024-04-24 结束: 2024-07-24 法律检索 数据算法赛
第 11 名解决方案

第 11 名解决方案

作者: Devin Anzelmo
发布日期: 2024-07-25
竞赛排名: 11

感谢组织者举办比赛,感谢所有贡献代码和想法的人。

概述

  • 查询由通过 OR 连接的不频繁 token 组成
  • 使用了单个单词和 ADJ(相邻)对
  • 没有魔法,只是简单的规则来寻找不错的 token 组合用于查询

验证

使用了 2000 个专利和 100 个最近邻。我使用 BigQuery 提取了嵌入数据,然后创建了包含 100 个最近邻的数据集。这几乎完美匹配了排行榜,所以我想知道测试集是否也使用了超过 50 个最近邻。

方法

早期我意识到我们可以通过非常不频繁的单词(有很多拼写错误)来识别单个专利。仅使用不频繁的 token 和 OR 就能得到 0.77 分。我创建了包含所有专利所有单词频率的数据集,然后创建了仅包含较少频率 token 的数据集。

除了用不频繁的 token 唯一识别专利外,我还识别了共享相同不频繁 token 的专利组。

我在比赛开始几周后不得不停止参赛,这就是我当时留下的解决方案。

在最后几天,看到如果我稍微改进一下也许能获得金牌,我为标题、摘要和权利要求书添加了直接的 ADJ 对(无间隙,或距离为 1)。如果我至少能命中两个目标专利,并且该相邻对在完整数据集中出现少于 8 次,我就会使用该对。这将我的分数提高到了 0.81。我在震荡中运气不错,勉强挤进了金牌区(抱歉 dt)。

我的方法没有经过太多优化,我很兴奋看到一些有趣的解决方案被发布。我没有找到任何延长查询的魔法,但松了一口气,我没有错过任何能明显提高分数到 90 分以上的超级明显的东西。

同比赛其他方案