返回列表

10th Place Solution

618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai

开始: 2024-04-24 结束: 2024-07-24 法律检索 数据算法赛
第 10 名解决方案

第 10 名解决方案

作者: shigeria
发布日期: 2024-07-25
竞赛排名: 第 10 名

首先,祝贺所有获奖、获得奖品、奖牌等的参与者!
虽然我们未能了解到像将"AND"相关 token 合并为 1 个 token 这样的魔法,但我们希望分享一个简要的解决方案。

1. 创建与目标专利相关而非测试中其他专利的 (cpc, ti, ab, detd) 对

首先,我们计算了与每个测试行相关的所有 cpc_codes、标题等,并生成了对。如果每个 token 对与其他测试专利无关,并且与不在 test.csv 中的其他专利的相关性不如测试行中的专利高,我们就使用这个对。

2. 排序对以节省 Token 计数

想象一个如下所示的查询(token 计数:14)

(cpc:aaa cpc:bbb) OR (cpc:aaa cpc:ccc) OR (cpc:aaa cpc:ddd) OR (cpc:bbb cpc:ddd) OR (cpc:bbb cpc:eee)

通过合并具有相同 token 的对,节省了 token 计数(14 -> 11)

(cpc:aaa (cpc:bbb OR cpc:ccc OR cpc:ddd)) OR (cpc:bbb (cpc:ddd OR cpc:eee))

3. 最终想法

我一直在努力寻找一个可靠的验证集,如下讨论所示。
https://www.kaggle.com/competitions/uspto-explainable-ai/discussion/518461
通过放弃创建另一个验证(或测试)whoosh 索引并计算所有专利元数据,一切进展顺利。

4. 代码链接

合作者:
  • shigeria
  • ayaya09
  • yu
  • Shreyas Bhatt
  • lucaskna
同比赛其他方案