返回列表

5th Place - by standing on the shoulders of Giants

666. Make Data Count - Finding Data References | make-data-count-finding-data-references

开始: 2025-06-11 结束: 2025-09-09 文献与知识发现 数据算法赛
第五名 - 站在巨人的肩膀上

第五名 - 站在巨人的肩膀上

副标题:利用从数据引用语料库和 EuropePMC 挖掘的登录号

作者: cm391 (mccocoful)
发布日期: 2025 年 9 月 10 日

感谢主办方和参与者举办如此有趣且精彩的比赛。

特别感谢 @rdmpage,他最初的理解、博客文章和参与非常有价值。

在迷雾中竞争

我非常努力地寻找一些能找出所有可能登录号的解决方案,但这并不是比赛的重点。这对熟悉数据和我自己的学习很有帮助,然而当“巨人”被释放时,竞争才真正开始。

寻找巨人

@keakohv这里 留下了以下评论:

实际上都不是。仅 DOI 的 LB 0.27 的流程如下:

  • 获取 DataCite 提供的数据引用语料库 v3 版本 (2025-02-01) 出版物 -DOI 引用对。
  • 仅保留出版物在本比赛文章集中的引用对。
  • 检查 DOI 是否实际存在于文章的 PDF 或 XML 中,如果没有,则移除(类似于标签中的“缺失”类型引用)。
  • 创建特征,包括来自引用语料库的元数据,例如出版商、期刊、数据集标题等。
  • 在特征上训练分类器以预测主要/次要。

我大约在一个月前做了这些仅 DOI 的实验,但没有进一步探索。我当时的目标是理解主办方 labeling 方法背后的逻辑。我很确定,现在仍然确定,他们至少部分使用了 DataCite 或类似的 DOI 来源。

比赛主办方在欢迎帖中留下了以下评论。链接到评论

@rdmpage -- 在此回答您的问题,并注意到我们阅读了所有其他 threads/评论!我们对在线版本和 PDF 进行了人工标注以确定引用类型。数据提及是从可用的数据引用来源中提取的,包括 MDC 数据引用语料库和 Europe PMC。提供的论文旨在帮助参与者更快地访问内容。它们是根据出版商提供的开放访问来源 pulled 出来的( wherever available & whatever format)。两者都不比另一个更相关(XML 未用于标注并不一定意味着 PDF 对参与者更相关)。我们知道这个大数据集中存在特异性。它们的存在恰恰证明了为什么这场比赛对科学如此重要——因此我们可以获得数据与论文之间联系的最全面和准确的 picture。对于比赛本身,所有参与者都基于相同的评估数据集进行评分。正如我们和 @inversion 所指出的,我们将很快发布关于最后一点的更多信息!

在这里,我们看到主办方清楚地解释了登录号的来源以及它们是如何分类的。

  1. 所有登录号都包含在 Europe PMCDCCv3
  2. 标注者在确定主要或次要时仅使用了 PDF

攀登巨人

所以我们下载所有登录号并形成 article_iddataset_id 的表。将其用于 train_labels.csv,我们可以检测到未包含在比赛中的登录号。其中最复杂需要正确过滤的家族是 gen.csv —— 最后我只是过滤掉了所有以训练命中但不在 train_labels.csv 中的登录号开头的登录号。

由此我们得到了一个公共 LB 为 0.82 且私有 LB 为 0.70 的解决方案,我已发布在 这里

顶峰视野

Qwen 需要人类标注者所拥有的上下文才能对登录号进行分类。我专注于 XML,因为它已经是结构化的并且包含大量信息。我们首先识别 ID 出现的容器,然后如果该容器有 tag-id,我们找到所有持有该 tag-id 的地方。当 ID 仅在表格或参考部分时,这很有帮助。另一个技巧是,如果找到表格,仅包含包含 ID 的实际行。

此时比赛剩余时间相对较少,我决定专注于 DOI 和 SAMN,因为它们实际上是可分类的,并且确实需要被分类(50/50 主要/次要),而大多数登录号 ID 只是次要的。我收集了这些 ID 的所有元数据,并将它们也提供在上下文中。

示例提示词

<|im_start|>system
You are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>
<|im_start|>user
### Core Instructions ###
* Inspect WINDOW taking particular interest in ID, given below.
* The ID is specifically a data citation - that relates to data held in an open-access repository.
* Determine whether the WINDOW context holds evidence that the WINDOW authors are responsible for the ID held in the public repository.
* After thinking, give your final answer using the rubric:
    * Owner: the WINDOW authors have some sort of ownership around ID.
    * User: the data has be re-used/referenced/compared in the WINDOW.
    * None: there is no evidence to determine ownership.
* When reviewing the METADATA remember: 
    * The METADATA is collected from several sources and hence has various formats for authour names and dates.
    * The most important thing is finding the overlap of WINDOW author(s) with the ID author(s); usually one author overlap is enough to assume Owner.
* The final answer should be wrapped in \boxed{} containing only User, Owner or None.

# ID
https://doi.org/10.17882/47142

# METADATA
## ID METADATA
[Title]: A global bio-optical database derived from Biogeochemical Argo float measurements within the layer of interest for field and remote ocean color applications
[Authors]: Organelli, Emanuele; Barbieux, Marie; Claustre, Herv; Schmechtig, Catherine; Poteau, Antoine; Bricaud, Annick; Uitz, Julia; Dortenzio, Fabrizio; Dallolmo, Giorgio
## WINDOW METADATA
[Title]: Assessing the Variability in the Relationship Between the Particulate Backscattering Coefficient and the Chlorophyll <i>a</i> Concentration From a Global BiogeochemicalArgo Database
[Authors]: Marie Barbieux; Julia Uitz; Annick Bricaud; Emanuele Organelli; Antoine Poteau; Catherine Schmechtig; Bernard Gentili; Grigor Obolensky; Edouard Leymarie; Christophe Penkerc'h; Fabrizio D'Ortenzio; Herv Claustre
[Date]: 2018-2

# WINDOW
## Paragraph
<p xmlns="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"><s>Sherbrooke, Canada) are acknowledged for useful comments and fruitful discussion.</s><s>We also thank the International Argo Program and the CORIOLIS project that contribute to make the data freely and publicly available.</s><s>Data referring to <ref type="bibr">(Organelli et al., 2016a)</ref> (doi:10.17882/47142)</s><s>and <ref target="#b8" type="bibr">(Barbieux et al., 2017)</ref> (doi: 10.17882/49388) are freely available on SEANOE.</s></p>

## References Condensed
<biblstruct xmlns="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:id="b100">

<monogr>
<title level="j">SEANOE</title>
<imprint>
<date type="published" when="2016">2016</date>
</imprint>
</monogr>
<note type="raw_reference">Organelli, E., M. Barbieux, H. Claustre, C. Schmechtig, A. Poteau, A. Bricaud, J. Uitz, F. D'Ortenzio, and G. Dall'Olmo (2016a), A global bio-optical database derived from Biogeochemical Argo float measurements within the layer of interest for field and remote ocean colour applications, SEANOE, doi:10.17882/47142.</note>
</biblstruct><|im_end|>
<|im_start|>assistant

推理

现在有了上下文,我使用 Qwen2.5-32B-Instruct-AWQ 和 Qwen3-32B-AWQ 进行推理,从 \boxed{} 中提取答案,然后通过多数投票与我的 CPU 提交进行集成。

最后的技巧

这有点奇怪——但在 train_labels.csv 中,我注意到当包含 DOI 时,某些登录号会出现一些假阳性 (FP)。这些 DOI 很特殊,因为它们同时出现在 EuropePMC 文本挖掘术语和 DCC 中——所以我过滤掉了匹配这些类型 DOI 的 ACC。

sub_ensemble = ensemble.select('article_id', 'dataset_id', pl.Series('type', final_types)).unique(['article_id', 'dataset_id'])

corpus = ( 
    get_corpus()
)

sub_w_families = sub_ensemble.with_columns(pkey=pl.col('article_id').str.to_lowercase()).join(corpus, ['pkey', 'dataset_id'])

ids_to_drop = (
    sub_w_families.group_by('article_id')
    .agg('dataset_id', 'family')
    .with_columns(pl.col('family').list.unique().alias('uf'))
    .filter(pl.col('uf').list.len()>1)
    .filter(pl.col('uf').list.contains('mdc_priority'))
    .filter(pl.col('uf').list.set_difference({"mdc", "mdc_priority"}).list.len()>0)
    .drop('uf')
    .explode(['dataset_id', 'family'])
    .filter(~pl.col('family').str.contains(r"(:?mdc|gen|pfam)"))
    .select('article_id', 'dataset_id')
)

sub_ensemble = sub_ensemble.join(ids_to_drop, pkeys, how='anti')

这并没有提高 LB,但我相信 CV。在整个比赛过程中,CV 对我来说相对稳定。

结语

由于这场比赛都是关于引用的,如果没有参考文献部分,这篇帖子就不完整!

Page, R. (2024). Problems with the DataCite Data Citation Corpus https://doi.org/10.59350/t80g1-xys37

Page, R. (2024). The Data Citation Corpus revisited https://doi.org/10.59350/wvwva-v7125

DataCite, & Make Data Count. (2024). Data Citation Corpus Data File (v1.1) [Data set]. DataCite. https://doi.org/10.5281/zenodo.11216814

同比赛其他方案