588. CAFA 5 Protein Function Prediction | cafa-5-protein-function-prediction
感谢Kaggle和组织方举办如此精彩的比赛。本次比赛任务"利用任何可用数据预测蛋白质功能"与生物学基础密切相关,对我来说是一次非常激动人心的经历。同时感谢社区成员,讨论区和技术笔记给予了我很大帮助。
我使用了以下神经网络模型:
从蛋白质序列中提取了蛋白质语言模型的嵌入表示。使用的模型包括T5、ESM2t36、ESM2t48以及这些模型的组合。
对分类学数据进行独热编码,并将其与蛋白质语言模型生成的嵌入向量结合。此过程中仅使用了测试数据中包含的90个分类学ID。
UniProt GOA注释的证据代码包含13个实验标签和11个非实验标签。实验标签作为真实标签使用,而非实验标签未在训练数据中使用。
因此,我从UniProt GOA数据中提取了非实验标签作为额外特征。这些标签经过独热编码后转换为张量(维度:批次大小, 11, 真实标签数量),然后通过核大小为1的1D-CNN进行处理。
训练数据来自2022年11月17日的UniProtKB实验注释,而测试数据(私有排行榜)由2023年8月22日后实验验证的数据组成。
因此,我采用了类似时间序列数据的验证策略。从比赛时最新的UniProtKB数据中提取实验注释创建验证集,并排除了所有在训练数据中已注释的子本体数据。