11th Place Solution

第 11 名解决方案

作者: Devin Anzelmo
发布日期: 2024-07-25
竞赛排名: 11

感谢组织者举办比赛，感谢所有贡献代码和想法的人。

概述

查询由通过 OR 连接的不频繁 token 组成
使用了单个单词和 ADJ（相邻）对
没有魔法，只是简单的规则来寻找不错的 token 组合用于查询

验证

使用了 2000 个专利和 100 个最近邻。我使用 BigQuery 提取了嵌入数据，然后创建了包含 100 个最近邻的数据集。这几乎完美匹配了排行榜，所以我想知道测试集是否也使用了超过 50 个最近邻。

方法

早期我意识到我们可以通过非常不频繁的单词（有很多拼写错误）来识别单个专利。仅使用不频繁的 token 和 OR 就能得到 0.77 分。我创建了包含所有专利所有单词频率的数据集，然后创建了仅包含较少频率 token 的数据集。

除了用不频繁的 token 唯一识别专利外，我还识别了共享相同不频繁 token 的专利组。

我在比赛开始几周后不得不停止参赛，这就是我当时留下的解决方案。

在最后几天，看到如果我稍微改进一下也许能获得金牌，我为标题、摘要和权利要求书添加了直接的 ADJ 对（无间隙，或距离为 1）。如果我至少能命中两个目标专利，并且该相邻对在完整数据集中出现少于 8 次，我就会使用该对。这将我的分数提高到了 0.81。我在震荡中运气不错，勉强挤进了金牌区（抱歉 dt）。

我的方法没有经过太多优化，我很兴奋看到一些有趣的解决方案被发布。我没有找到任何延长查询的魔法，但松了一口气，我没有错过任何能明显提高分数到 90 分以上的超级明显的东西。

作者主页 访问 Devin Anzelmo 的 Kaggle 个人资料

第 11 名解决方案

概述

验证

方法

同比赛其他方案