618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai
我们的最终方法采用了一个预处理和过滤管道,旨在最小化过拟合。最初,我们使用了一种复杂的方法,涉及带有线性规划的 CPC 代码搜索、多种算法(包括决策树)以及逻辑链(NOT, OR)。最终,我们将其简化为基于单词匹配的直接 OR 链。我们创建了一个包含所有出版物过滤信息的 SQLite 数据库,并在该 notebook 中仅使用单个 OR 链实现,达到了 0.72+ 的分数(我们最好的提交仅为 0.66,这个 notebook 只是将我们方法的目标分数从精确率改为 mAP,我们在下面解释这个混淆)。
SQL 数据库创建:
whoosh.analysis.StandardAnalyzer(stoplist=BRS_STOPWORDS) | NumberFilter() 进行处理,然后去除重复项以节省内存,因为最初优先考虑单词搜索。推理时的邻居:
特征 DataFrame 生成:
OR 链生成:
一个重大的疏忽是对评分指标的误解。最初,我们假设该指标可以视为精确率,因为错误匹配会填满至 50 个而不考虑顺序。后来,我们意识到使用了 tf-idf 和排序,但没有重新评估我们基于精确率的方法。这导致选择了 35/15 的分割而不是 25/0 的分割,导致分数较低(0.7 对 0.84)。
潜在的改进包括:
我们向比赛组织者、分享方法和想法的参与者表示感谢,并向获胜者表示祝贺!