4th place solution - LB probing, acronym detection, and NER

第4名方案 - LB探测、缩写检测与NER

作者：OsciiArt, resistance0108, Naoto Usuyama
排名：第4名

我们的解决方案由以下6个部分组成：

LB探测
缩写检测
缩写检测版本2
利用外部数据集名称进行字符串匹配
利用NER检测数据集名称变体
利用训练数据集名称进行字符串匹配

1. LB探测

本次比赛的评估指标是F-score。在该指标下，假设当前得分为F，当新检测到的标签为真阳性的期望值大于0.8F时，该标签才能提高分数。因此，为了确定检测阈值，估计私有测试集的分数非常重要。例如，如果F为0.6，最佳阈值为0.48；如果F为0.4，最佳阈值为0.32。正因如此，了解训练数据标签在私有测试数据中的数量非常重要，因为它强烈影响私有测试分数。

为了解决这个问题，我们进行了LB探测。在本次比赛中，公开测试数据包含训练数据的副本。因此，我们可以通过将训练数据的真阳性标签应用于其副本，来创建一个仅包含真阳性标签且无误报的提交。通过设置与隐藏测试数据相关的真阳性标签数量，我们可以从提交分数中获取关于隐藏测试数据的信息。利用这一策略，我们得出了以下粗略估计值：

公开测试数据数量：923
私有测试数据数量：7,695
公开测试数据中的标签数量：8,546
私有测试数据中的标签数量：62,671
通过训练数据标签字符串匹配在测试数据中检测到的标签数量：1,717

从这些结果中，我们发现训练数据标签字符串匹配的公开测试分数非常高（0.530），但测试数据中的训练数据标签非常少（1,717）。因此，测试数据中至少有1,600个训练数据标签可能在公开测试数据中，而在私有测试数据中可能很少。因此，从预测中剔除训练数据标签的提交的公开分数将与私有测试分数良好相关。通过找到不包含训练数据标签的最高分提交，并在此基础上添加训练数据标签字符串匹配，可以获得最佳提交。

通过这种方法，我们成功从我们的201次提交中选出了私有分数最高的提交。这让我们确信能够经受住私有测试LB的巨大波动，这对我们团队来说是一个非常大的优势。

2. 缩写检测

大多数数据集都有缩写（例如，National Education Longitudinal Study → NELS）。因此，我们进行了缩写检测，以检测训练数据标签中未包含的数据集名称。使用了以下步骤来提取它们：

通过空格分割文本，制作单词列表。
如果列表中的单词被括号包围，且包含大写字符但无小写字符，则将其检测为缩写候选。
如果缩写候选中的字符数小于阈值，则将其移除。
从文本中提取缩写候选前的几个单词作为数据集名称候选。
如果数据集候选中每个单词的首字符能组成缩写候选，则将它们检测为数据集名称/缩写对。（允许数据集候选包含与缩写候选无关的首字符。）
仅提取包含关键词（study, studies, data, survey, panel, census, cohort, longitudinal 或 registry）的数据集名称。
排除包含禁用词（system, center, committee 等）的数据集名称。
应用 clean_text 函数。
如果数据集名称与任何训练数据标签或缩写检测标签之间的 Jaccard 相似度大于或等于 0.5，则排除该数据集名称。
对训练和测试数据使用检测到的数据集名称进行字符串匹配，并计算每个数据集名称在文本中的出现次数。仅提取计数高于阈值的那些数据集名称，因为如果一个名称出现在大量文本中，它更可能是数据集名称。
最后，使用提取的数据集名称进行字符串匹配。只有当数据集名称在文本中出现次数超过阈值时，才将其检测为标签。

缩写本身也被检测为数据集名称。对数据集名称和缩写进行字符串匹配。只有当缩写及其全称在文本中出现次数超过阈值时，缩写才被检测为标签。

通过这种缩写检测，我们在公开LB上获得了0.418分，在私有LB上获得了0.436分。每个阈值都是基于公开LB分数选择的。

3. 缩写检测版本2

为了获得更多的数据集名称，我们进行了更激进的缩写检测。我们从文本中提取包含大写字符且无小写字符的单词作为缩写候选。我们在整个文本中搜索作为缩写候选全称有效的词块。这种缩

4th place solution - LB probing, acronym detection, and NER

第4名方案 - LB探测、缩写检测与NER

1. LB探测

2. 缩写检测

3. 缩写检测版本2

同比赛其他方案