588. CAFA 5 Protein Function Prediction | cafa-5-protein-function-prediction
感谢组织者和Kaggle举办这场有趣的比赛,同时也要大大感谢社区在整个提交期间提供的许多有益想法和笔记本。还要感谢我出色的队友 @aypyaypy 和 @ahmedelfazouan。
以下是我们的方法简要总结。该方法融合了两个不同的思路,合并后发现它们互补性很好。
我们最好的单模型达到了0.605的分数。
下图展示了使用不同目标+种子集成与单模型相比的变化。混合方案对pred=1的预测更加自信。

第二部分采用了一个较少依赖机器学习的方法。
使用Kirill公开的笔记本中介绍的方法合并SprofGO和QuickGO(即:取平均值后,选择每个方面的前45个;https://www.kaggle.com/code/kirilldubovik/cafa5-tuning-merge-datasets)。
传播过程:如果子节点中存在一个基因本体论(GO)的注释,其预期概率大于父节点自身的概率,则将父节点GO的概率替换为子节点GO的最大概率。此操作从叶节点GO向根节点进行传播。
传播过程的结果可视化如下所示。正如预期的那样,大量的概率被设置为1。该方法的单独公共分数达到了0.597。

我们还尝试了其他一些方法,但由于私人分数仅针对选定的提交进行计算,因此无法报告其性能,这在计算角度是可以理解的。
我们尝试过的方法: