返回列表

22nd Place Solution - Simple TF-IDF

618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai

开始: 2024-04-24 结束: 2024-07-24 法律检索 数据算法赛
第 22 名解决方案 - 简单 TF-IDF
作者: Hajime Tamura (thajime)
排名: 第 22 名
发布日期: 2024-07-25

第 22 名解决方案 - 简单 TF-IDF

感谢组织这场非常有趣的竞赛。感谢所有参与者。
第 22 名的解决方案是一个仅使用"title"和"cpc"的简单方案。

创建候选集

步骤 1:通过 TF-IDF(标题)生成 90 个候选者

  • stopwords='english'
  • ngram=(1, 3)
  • max_df=100
  • min_df=3
  • 如果一个词在另一个词集中,则排除它
  • 排除少于 5 个字母的单词

步骤 1 可能无法达到 60 个,因为标题太短。在这种情况下,将步骤 2 添加到候选者中。

步骤 2:通过 TF-IDF(cpc)生成 60 个候选者

  • max_df=0.01

步骤 1 和步骤 2 的候选者总和可能无法达到 30 个,因为某些 publication_numbers 的标题和 cpc 信息很少。在这种情况下,将步骤 3 添加到候选者中。

步骤 3:通过标题单词出现次数生成 10 个候选者

  • 将标题 split 为单词并按出现次数排序(最多 10 个)

退火算法

使用这些候选者,运行退火算法。但是,我无法理解退火算法,而是直接使用了以下两个优秀的公开 Notebook。
@tubotubo @andrey67 我非常感谢你们。

https://www.kaggle.com/code/tubotubo/uspto-simulated-annealing-baseline
https://www.kaggle.com/code/andrey67/uspto-annealing-lb-0-31

当然,我完全没有找到 MAGIC。能找到它的人真是太神奇了!

同比赛其他方案