443. Coleridge Initiative - Show US the Data | coleridgeinitiative-show-us-the-data
我们的解决方案由以下6个部分组成:
本次比赛的评估指标是F-score。在该指标下,假设当前得分为F,当新检测到的标签为真阳性的期望值大于0.8F时,该标签才能提高分数。因此,为了确定检测阈值,估计私有测试集的分数非常重要。例如,如果F为0.6,最佳阈值为0.48;如果F为0.4,最佳阈值为0.32。正因如此,了解训练数据标签在私有测试数据中的数量非常重要,因为它强烈影响私有测试分数。
为了解决这个问题,我们进行了LB探测。在本次比赛中,公开测试数据包含训练数据的副本。因此,我们可以通过将训练数据的真阳性标签应用于其副本,来创建一个仅包含真阳性标签且无误报的提交。通过设置与隐藏测试数据相关的真阳性标签数量,我们可以从提交分数中获取关于隐藏测试数据的信息。利用这一策略,我们得出了以下粗略估计值:
从这些结果中,我们发现训练数据标签字符串匹配的公开测试分数非常高(0.530),但测试数据中的训练数据标签非常少(1,717)。因此,测试数据中至少有1,600个训练数据标签可能在公开测试数据中,而在私有测试数据中可能很少。因此,从预测中剔除训练数据标签的提交的公开分数将与私有测试分数良好相关。通过找到不包含训练数据标签的最高分提交,并在此基础上添加训练数据标签字符串匹配,可以获得最佳提交。
通过这种方法,我们成功从我们的201次提交中选出了私有分数最高的提交。这让我们确信能够经受住私有测试LB的巨大波动,这对我们团队来说是一个非常大的优势。
大多数数据集都有缩写(例如,National Education Longitudinal Study → NELS)。因此,我们进行了缩写检测,以检测训练数据标签中未包含的数据集名称。使用了以下步骤来提取它们:
缩写本身也被检测为数据集名称。对数据集名称和缩写进行字符串匹配。只有当缩写及其全称在文本中出现次数超过阈值时,缩写才被检测为标签。
通过这种缩写检测,我们在公开LB上获得了0.418分,在私有LB上获得了0.436分。每个阈值都是基于公开LB分数选择的。
为了获得更多的数据集名称,我们进行了更激进的缩写检测。我们从文本中提取包含大写字符且无小写字符的单词作为缩写候选。我们在整个文本中搜索作为缩写候选全称有效的词块。这种缩