618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai
感谢美国专利商标局 (USPTO) 组织并主持本次竞赛,并向所有获奖团队表示热烈祝贺。
总体方法是构建如下形式的查询:rare_cpcs_docs OR ((sub-query) AND (sub-query) AND …)。我们使用了 CPC 的全局频率索引以及摘要和权利要求的 IDF 查找表,详见下文讨论。
rare_cpcs_docs 查询,这是 CPC 的 OR 连接。这仅适用于那些在全局 CPC 命中次数非常少(< 50)的文档。本地测试显示,这通常around 5-10 个文档。我们专注于稀有 CPC 和稀有关键字,这些关键字主要在 50 个文档内共享(即具有高局部命中率和低全局计数的 CPC,具有高局部命中率和高全局 IDF 的关键字),然后我们贪心地选择表现最好的实体,直到覆盖所有文档(贪心集合覆盖)。
我们在生成这些子查询方面进行了大量实验,但都没有带来巨大的增益:
我们分析了整个 parquet 文件集(1000 多万项独立专利)以构建这些索引:
目的是使用这些查找表来惩罚高频术语,从而减少我们检索到的无关文档数量。
cpc:(a OR b OR c OR …)。代码的选择基于局部频率因素,即我们优先考虑覆盖最多 50 个文档的代码;一个简单的贪心集合覆盖算法。这个简单查询在排行榜上得分为 0.37。(ti:subquery) (clm:subquery)(cpc:subquery)。这将有助于检测 50 个文档中每个部分的共同专利格局。由于每个子查询的查询大小较小,该解决方案没有产生预期的改进。