返回列表

3rd Place Solution for the CAFA 5 Protein Function Prediction

588. CAFA 5 Protein Function Prediction | cafa-5-protein-function-prediction

开始: 2023-04-18 结束: 2023-12-20 药物研发 数据算法赛
CAFA 5蛋白质功能预测比赛第三名解决方案

CAFA 5蛋白质功能预测比赛第三名解决方案

作者:tito(GRANDMASTER)
发布日期:2023年12月30日
得票数:29票
比赛排名:第3名

感谢Kaggle和组织方举办如此精彩的比赛。本次比赛任务"利用任何可用数据预测蛋白质功能"与生物学基础密切相关,对我来说是一次非常激动人心的经历。同时感谢社区成员,讨论区和技术笔记给予了我很大帮助。

概述

我使用了以下神经网络模型:

模型架构概览

蛋白质序列处理

从蛋白质序列中提取了蛋白质语言模型的嵌入表示。使用的模型包括T5、ESM2t36、ESM2t48以及这些模型的组合。

分类学数据

对分类学数据进行独热编码,并将其与蛋白质语言模型生成的嵌入向量结合。此过程中仅使用了测试数据中包含的90个分类学ID。

非实验注释特征

UniProt GOA注释的证据代码包含13个实验标签和11个非实验标签。实验标签作为真实标签使用,而非实验标签未在训练数据中使用。

因此,我从UniProt GOA数据中提取了非实验标签作为额外特征。这些标签经过独热编码后转换为张量(维度:批次大小, 11, 真实标签数量),然后通过核大小为1的1D-CNN进行处理。

非实验特征处理流程

验证策略

训练数据来自2022年11月17日的UniProtKB实验注释,而测试数据(私有排行榜)由2023年8月22日后实验验证的数据组成。

验证策略

因此,我采用了类似时间序列数据的验证策略。从比赛时最新的UniProtKB数据中提取实验注释创建验证集,并排除了所有在训练数据中已注释的子本体数据。

同比赛其他方案