618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai
感谢组织者举办比赛,感谢所有贡献代码和想法的人。
OR 连接的不频繁 token 组成ADJ(相邻)对使用了 2000 个专利和 100 个最近邻。我使用 BigQuery 提取了嵌入数据,然后创建了包含 100 个最近邻的数据集。这几乎完美匹配了排行榜,所以我想知道测试集是否也使用了超过 50 个最近邻。
早期我意识到我们可以通过非常不频繁的单词(有很多拼写错误)来识别单个专利。仅使用不频繁的 token 和 OR 就能得到 0.77 分。我创建了包含所有专利所有单词频率的数据集,然后创建了仅包含较少频率 token 的数据集。
除了用不频繁的 token 唯一识别专利外,我还识别了共享相同不频繁 token 的专利组。
我在比赛开始几周后不得不停止参赛,这就是我当时留下的解决方案。
在最后几天,看到如果我稍微改进一下也许能获得金牌,我为标题、摘要和权利要求书添加了直接的 ADJ 对(无间隙,或距离为 1)。如果我至少能命中两个目标专利,并且该相邻对在完整数据集中出现少于 8 次,我就会使用该对。这将我的分数提高到了 0.81。我在震荡中运气不错,勉强挤进了金牌区(抱歉 dt)。
我的方法没有经过太多优化,我很兴奋看到一些有趣的解决方案被发布。我没有找到任何延长查询的魔法,但松了一口气,我没有错过任何能明显提高分数到 90 分以上的超级明显的东西。