618. USPTO - Explainable AI for Patent Professionals | uspto-explainable-ai
感谢主办方,恭喜获奖者。
说实话,我很遗憾错失第一名,但我很高兴在这次竞赛中赢得了我的第一个奖项和第 5 枚金牌!
| CV (交叉验证) | Public LB (公共榜) | Private LB (私有榜) | |
|---|---|---|---|
| 使用魔法的解决方案 | 0.99934 | 0.99849 | 0.99872 |
| 不使用魔法的解决方案 | 0.89992 | 0.90295 | 0.90427 |
这次竞赛中有两个(可能主办方未注意到的)魔法,我在解决方案中使用了前者。
ti:"abcd"ab:"efgh"clm:"ijkl"ti:"abcd/efgh/ijkl" (除了斜杠外还有几种可能的分隔符)如果你注意到这两个魔法中的一个,即使使用简单的解决方案(如在 1 个子查询中识别 1 个专利),你也可以获得 0.8 以上的分数。
如果没有魔法,提交的最佳 LB 是 0.90。然而,既然我发现了魔法,我就专注于使用它来改进解决方案,我认为不使用魔法的解决方案还有很大的改进空间。
在最终解决方案中,查询看起来像这样
query = (subquery1 OR subquery2 OR …) NOT (negative-subquery1 OR negative-subquery2 OR …)过程分为三个主要部分:“构建索引”、“生成子查询候选”和“选择用于查询的子查询”。
下面是整个过程的说明。

构建索引
生成子查询候选
选择用于查询的子查询
最终提交中可检索到的目标数量直方图如下。

使用魔法的解决方案 (50 个目标)
(ab:"srm"clm:"srm"cpc:"G01N33/6848"clm:"quantified") OR (detd:"collisionally"cpc:"G01N33/6848"detd:"collisional"ab:"spectrometry"detd:"spectrom"clm:"spectrometry"clm:"tandem"ab:"proteins") OR (detd:"higgs"ab:"spectrometry"clm:"peptides"clm:"ms"ab:"proteins"clm:"proteins"ab:"protein") OR (detd:"xics"detd:"silac"detd:"itraq"detd:"xic"detd:"sequest"ab:"quantifying") OR (detd:"massbank"detd:"metlin"detd:"hmdb"detd:"synapt") OR (detd:"desolvated"ab:"peaks"clm:"spectrometry"clm:"spectra") OR (clm:"maldi"detd:"ftms"clm:"electrospray"detd:"quadrupoles"ab:"spectrometry"detd:"spectrom"ab:"mass"ti:"methods") OR (detd:"muddiman"detd:"gygi"detd:"lysc") OR (detd:"lumos"cpc:"G16B40/10"detd:"lysc") OR (cpc:"G16B20/00"ti:"complex"ti:"sample"ab:"ion") OR (ab:"spectrometry"clm:"spectrometry"ab:"peptide"ab:"mass"ab:"detected"ab:"improved") OR (detd:"picotip"detd:"fibrinopeptide"clm:"trna") OR (detd:"chait"detd:"sequest"detd:"proteomes"detd:"endoproteinase") OR (detd:"spectrom"clm:"spectrometry"clm:"spectra"ab:"peptide"ab:"mass"ab:"data"ab:"invention"ab:"one"ab:"with") OR (cpc:"Y10T436/24"clm:"labeled"ab:"sample"ab:"cell"ab:"obtained") OR (detd:"silac"detd:"itraq"ti:"multiplexed"detd:"iodoacetyl") OR (clm:"biomolecules"clm:"fragmenting"clm:"biomolecule"clm:"abundance"clm:"desorption"clm:"ionization"clm:"spectra"clm:"peptides"clm:"spectrometer"clm:"assisted"clm:"proteins") OR (cpc:"G01N33/6848"ti:"spectrometry"ti:"mass"clm:"peptides"ab:"peptide"ab:"mass"ab:"sample"ab:"determining"ab:"present"ab:"least") OR (clm:"fentomole")不使用魔法的解决方案 (39 个目标)
(clm:"walwffk") OR (detd:"gruhler" detd:"qstar") OR (detd:"hdmse" detd:"roepstorff") OR (detd:"gillet" detd:"electrosprayed") OR (detd:"sofeware" detd:"3.4.21.8") OR (ab:"srm" clm:"srm" cpc:"G01N33/6848" clm:"quantified") OR (clm:"lysophatidylinositol") OR (detd:"econometrics" detd:"silac") OR (detd:"sequest" ab:"spectrometry" clm:"multidimensional") OR (detd:"lumos" cpc:"G16B40/10" detd:"lysc") OR (detd:"phosphoproteomes" detd:"picotti") OR (detd:"pp4" detd:"femtomole") OR (detd:"c10h9n6o2") OR (detd:"mortz" cpc:"H01J49/00") OR (detd:"aqyneiqgwdhlsllp") OR (clm:"proteome" detd:"photodissociation") OR (detd:"albar" detd:"silac")