15th place solution

第 15 名解决方案

作者： guo dashuai (guoooooooss)
发布日期： 2025-09-10
竞赛排名： 第 15 名

感谢主办方和 Kaggle 的支持。虽然这次比赛对我来说运气不太好，但我仍然学到了很多。

以下是我的方法简要总结：
我从比赛主页下载了 DataCite 语料库和 Europe PMC 数据，将论文 DOI 及其对应的引用存储在两个 CSV 文件中。
然后我从 DataCite 下载了完整元数据，以及 BioSample 和 GSE 的所有元数据（GSE 可能是我排名下滑的主要原因）。
从这些数据集中，我提取了所有引用 ID 和作者姓名。

最后，我使用 Grobid 提取每篇论文的作者列表，并根据姓氏使用 LLM 在多阶段决策过程中确定主要作者与次要作者。

最初，这个方法在 CV（交叉验证）和 LB（公共排行榜）上都表现良好。不幸的是，我可能在确定注册号优先级时犯了错误——也许将所有 SAMN 标记为主要注册号或完全排除 GSE 本可以让我赢得比赛。然而，由于无法查看私有排行榜，我假设使用作者姓名（类似于 DOI 匹配）可以帮助我降低风险——但似乎我错了。

虽然我的运气需要改进，但我获得了宝贵的经验。祝大家不断成长，取得成功！

推理 Notebook 点击这里!!!!!

第 15 名解决方案

同比赛其他方案