666. Make Data Count - Finding Data References | make-data-count-finding-data-references
感谢主办方和 Kaggle 的支持。虽然这次比赛对我来说运气不太好,但我仍然学到了很多。
以下是我的方法简要总结:
我从比赛主页下载了 DataCite 语料库和 Europe PMC 数据,将论文 DOI 及其对应的引用存储在两个 CSV 文件中。
然后我从 DataCite 下载了完整元数据,以及 BioSample 和 GSE 的所有元数据(GSE 可能是我排名下滑的主要原因)。
从这些数据集中,我提取了所有引用 ID 和作者姓名。
最后,我使用 Grobid 提取每篇论文的作者列表,并根据姓氏使用 LLM 在多阶段决策过程中确定主要作者与次要作者。
最初,这个方法在 CV(交叉验证)和 LB(公共排行榜)上都表现良好。不幸的是,我可能在确定注册号优先级时犯了错误——也许将所有 SAMN 标记为主要注册号或完全排除 GSE 本可以让我赢得比赛。然而,由于无法查看私有排行榜,我假设使用作者姓名(类似于 DOI 匹配)可以帮助我降低风险——但似乎我错了。
虽然我的运气需要改进,但我获得了宝贵的经验。祝大家不断成长,取得成功!