A. 模型摘要

A1. 团队背景

竞赛名称：CAFA 5蛋白质功能预测

团队名称：hfm7zc

私有排行榜分数：0.56171（最大加权F-度量，wFmax）

私有排行榜排名：第5名

姓名：Chengxin Zhang
单位：密歇根大学安娜堡分校计算医学与生物信息学系，美国密歇根州安娜堡
邮箱：zcx@umich.edu

姓名：P Lydia Freddolino
单位：密歇根大学安娜堡分校生物化学系，美国密歇根州安娜堡
邮箱：lydsf@umich.edu

A2. 团队背景

我们的团队由两位教职人员组成，致力于蛋白质功能注释工具的算法开发及其在微生物和人类蛋白质组范围内的应用。我们此前以"Zhang-Freddolino实验室"团队身份参与了CAFA3挑战，在CAFA3有限知识生物学过程类别中排名第一[1]。我们参加CAFA5旨在对我们的最新蛋白质功能预测方法进行基准测试，特别关注结构模板和深度学习在功能预测中的效用评估。C.Z.和P.L.F.构思了该项目并设计了流程。C.Z.开发了该方法，执行了CAFA5预测并提交了预测结果。

A3. 方法概述

我们的工作流程StarFunc首先通过五种组分方法为查询蛋白独立生成五组基因本体论（GO）预测：

通过BLASTp[2]在UniProt-GOA数据库中进行序列同源搜索
通过Foldseek[6]和TM-align[7]将查询蛋白的AlphaFold2模型[3]与BioLiP2[4]和AlphaFold数据库[5]中的模板结构进行结构比对
STRING数据库[8]记录的蛋白质-蛋白质相互作用（PPI）伙伴
使用Pfam家族匹配作为输入特征的逻辑回归模型（每个GO术语一个模型）
深度学习模型（SPROF-GO）[9]的预测结果

这五个组分的预测分数，以及UniProt-GOA数据库中GO术语的背景频率（即CAFA3评估中的"Naïve"方法[1]），被用作六个输入特征来训练三个随机森林模型（每个GO方面一个模型），以得出用于最终提交的共识分数。

A4. 特征选择与工程

基于独立测试集中组分方法的wFmax，特征（即组分方法的预测）按重要性降序排列为：序列、深度学习、结构、Pfam、PPI和Naïve（图1）。

图1. 通过独立测试集上的GO预测wFmax测量的不同特征重要性。

序列组分方法高性能的一个主要原因是引入了一个新的评分函数，该函数通过比特分数和序列同一性来加权每个BLASTp命中[10]。
对于组分方法和共识预测，训练数据集中仅包含实验性GO术语（证据代码EXP、IDA、IPI、IMP、IGI、IEP、HTP、HDA、HMP、HGI、HEP、TAS和IC）。另一方面，在训练过程中，如果蛋白质在UniProt-GOA中已有非实验性GO注释，则该GO注释也会包含在最终结果中，其中预测分数计算为1减去我们之前研究确定的证据代码相关错误率[11]。请注意，由于IBA证据的错误率高于其他类型的GO注释，因此总是排除它们[11]。

A5. 训练方法

我们测试了由LightGBM实现的传统梯度提升决策树（GBDT）、随机森林（RF）和Dropouts meet Multiple Additive Regression Trees（DART），以集成五种组分方法的预测。在基于UniProt-GOA release 2023-05-18的独立测试集上，我们发现使用1000棵树的GBDT和使用4000棵树的RF可以达到相当的结果，两者都比DART更准确。我们最终选择RF来得出共识预测。

A6. 有趣发现

术语GO:0005515"protein binding"（蛋白质结合）的处理方式与之前的CAFA挑战不同。在之前的CAFA挑战（CAFA1至CAFA3）中，仅以"蛋白质结合"为唯一分子功能（MF）叶节点的蛋白质将从MF评估中排除。根据CAFA3论文，"蛋白质结合是一个高度概括的功能描述，不能提供关于蛋白质实际功能的更具体信息，在许多情况下可能表明是非功能的、非特异性结合。如果这是蛋白质获得的唯一注释，……我们将其从基准集中删除这些注释。"
然而，CAFA5 Kaggle挑战并未不同对待"蛋白质结合"术语，而学术报告中CAFA5官方评估是否会不同对待该术语尚不明确。由于这些差异，我们向CAFA5提交了两个使用相同架构的不同模型，其中模型"zcx"在训练MF预测模型时排除仅含蛋白质结合的蛋白质，而模型"hfm7zc"包含这些训练蛋白质。模型"hfm7zc"似乎在排行榜上取得了更好的分数（0.56171，排名第5），优于"zcx"（0.55539，排名第8），表明"蛋白质结合"的不同处理方式可能对最终排行榜排名产生显著影响。然而，我们想表达我们的观点，即在学术CAFA5评估中，将蛋白质结合作为叶节点排除会更合适且生物学上更有意义。
我们还注意到，与下文A7节中报告的结果相反，根据我们之前的经验，对于更具挑战性的注释目标，非序列流程可能会更重要[12, 13]。

A7. 简单特征与方法

基于独立测试，98.7%的性能（以wFmax计）可由序列组分单独实现。

A8. 模型执行时间

使用CAFA5训练集，随机森林模型以及A3节中提到的逻辑回归模型可在< 1天内完成训练。执行推理时，整个流程每个蛋白质需要几分钟，其中大部分时间由结构模板比对组分消耗。如果仅运行序列组分，在大规模推理中每个蛋白质最多只需几秒钟。

A9. 致谢

我们感谢Quancheng Liu和Xiaoqiong Wei博士的技术支持和富有洞察力的讨论。本工作使用了先进网络基础设施协调生态系统：服务与支持（ACCESS）项目，该项目由国家科学基金会拨款#2138259、#2138286、#2138307、#2137603和#2138296支持。

A10. 参考文献

Zhou NH, et al: The CAFA challenge reports improved protein function prediction and new functional annotations for hundreds of genes through experimental screens. Genome Biology 2019, 20.
Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 1997, 25:3389-3402.
Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, Tunyasuvunakool K, Bates R, Zidek A, Potapenko A, et al: Highly accurate protein structure prediction with AlphaFold. Nature 2021, 596:583-589.
Zhang C, Zhang X, Freddolino PL, Zhang Y: BioLiP2: an updated structure database for biologically relevant ligand-protein interactions. Nucleic Acids Res 2023.
Varadi M, Anyango S, Deshpande M, Nair S, Natassia C, Yordanova G, Yuan D, Stroe O, Wood G, Laydon A, et al: AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models. Nucleic Acids Res 2022, 50:D439-D444.
van Kempen M, Kim SS, Tumescheit C, Mirdita M, Lee J, Gilchrist CLM, Soding J, Steinegger M: Fast and accurate protein structure search with Foldseek. Nat Biotechnol 2023.
Zhang Y, Skolnick J: TM-align: a protein structure alignment algorithm based on the TM-score. Nucleic Acids Res 2005, 33:2302-2309.
Szklarczyk D, Kirsch R, Koutrouli M, Nastou K, Mehryary F, Hachilif R, Gable AL, Fang T, Doncheva NT, Pyysalo S, et al: The STRING database in 2023: protein-protein association networks and functional enrichment analyses for any sequenced genome of interest. Nucleic Acids Research 2023, 51:D638-D646.
Yuan Q, Xie J, Xie J, Zhao H, Yang Y: Fast and accurate protein function prediction from sequence through pretrained language model and homology-based label diffusion. Briefings in Bioinformatics 2023, 24.
Zhang C, Freddolino PL: A large-scale assessment of sequence database search tools for homology-based protein function prediction. bioRxiv 2023:2023.2011. 2014.567021.
Wei X, Zhang C, Freddolino PL, Zhang Y: Detecting Gene Ontology misannotations using taxon-specific rate ratio comparisons. Bioinformatics 2020, 36:4383-4388.
Zhang C, Freddolino PL, Zhang Y: COFACTOR: improved protein function prediction by combining structure, sequence and protein-protein interaction information. Nucleic Acids Res 2017, 45:W291-W299.
Zhang CX, Zheng W, Freddolino PL, Zhang Y: MetaGO: Predicting Gene Ontology of Non-homologous Proteins Through Low-Resolution Protein Structure Prediction and Protein Protein Network Mapping. Journal of Molecular Biology 2018, 430:2256-2265.

5th Place Solution for the CAFA 5 Protein Function Prediction Challenge