3rd Place Solution for the CAFA 5 Protein Function Prediction

CAFA 5蛋白质功能预测比赛第三名解决方案

作者：tito（GRANDMASTER）
发布日期：2023年12月30日
得票数：29票
比赛排名：第3名

感谢Kaggle和组织方举办如此精彩的比赛。本次比赛任务"利用任何可用数据预测蛋白质功能"与生物学基础密切相关，对我来说是一次非常激动人心的经历。同时感谢社区成员，讨论区和技术笔记给予了我很大帮助。

概述

我使用了以下神经网络模型：

从蛋白质序列中提取了蛋白质语言模型的嵌入表示。使用的模型包括T5、ESM2t36、ESM2t48以及这些模型的组合。

对分类学数据进行独热编码，并将其与蛋白质语言模型生成的嵌入向量结合。此过程中仅使用了测试数据中包含的90个分类学ID。

UniProt GOA注释的证据代码包含13个实验标签和11个非实验标签。实验标签作为真实标签使用，而非实验标签未在训练数据中使用。

因此，我从UniProt GOA数据中提取了非实验标签作为额外特征。这些标签经过独热编码后转换为张量（维度：批次大小, 11, 真实标签数量），然后通过核大小为1的1D-CNN进行处理。

训练数据来自2022年11月17日的UniProtKB实验注释，而测试数据（私有排行榜）由2023年8月22日后实验验证的数据组成。

因此，我采用了类似时间序列数据的验证策略。从比赛时最新的UniProtKB数据中提取实验注释创建验证集，并排除了所有在训练数据中已注释的子本体数据。

作者主页 tito (GRANDMASTER)