618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai
首先,祝贺所有获奖、获得奖品、奖牌等的参与者!
虽然我们未能了解到像将"AND"相关 token 合并为 1 个 token 这样的魔法,但我们希望分享一个简要的解决方案。
首先,我们计算了与每个测试行相关的所有 cpc_codes、标题等,并生成了对。如果每个 token 对与其他测试专利无关,并且与不在 test.csv 中的其他专利的相关性不如测试行中的专利高,我们就使用这个对。
想象一个如下所示的查询(token 计数:14)
(cpc:aaa cpc:bbb) OR (cpc:aaa cpc:ccc) OR (cpc:aaa cpc:ddd) OR (cpc:bbb cpc:ddd) OR (cpc:bbb cpc:eee)
通过合并具有相同 token 的对,节省了 token 计数(14 -> 11)
(cpc:aaa (cpc:bbb OR cpc:ccc OR cpc:ddd)) OR (cpc:bbb (cpc:ddd OR cpc:eee))
我一直在努力寻找一个可靠的验证集,如下讨论所示。
https://www.kaggle.com/competitions/uspto-explainable-ai/discussion/518461
通过放弃创建另一个验证(或测试)whoosh 索引并计算所有专利元数据,一切进展顺利。