返回列表

My incredibly lucky 6th place solution w code

525. Novozymes Enzyme Stability Prediction | novozymes-enzyme-stability-prediction

开始: 2022-09-21 结束: 2023-01-03 药物研发 数据算法赛
我运气爆棚的第6名解决方案(含代码)

我运气爆棚的第6名解决方案(含代码)

作者:Shujun (Grandmaster) | 排名:第6名 | 发布时间:2023-01-04

不知怎么的我最终拿到了第6名,我简直不敢相信自己有这么幸运。我在比赛仅剩4周时才开始着手,我的主要想法是使用一个旋转和平移等变网络(e3nn),但我没能将其单独开发成一个强有力的解决方案。我的集成模型大部分来自于公开的 notebooks,稍后我会引用它们,但这篇文章我将快速讨论一下我的 e3nn 网络。

数据

我使用了由 thermonet notebook 编译的相同数据集,所以真的没什么特别的。

我的 e3nn 网络

Thermonet 的出色表现让我非常惊讶,主要是因为 3D 卷积不是旋转等变的,这意味着如果你旋转一个蛋白质结构,它会给你不同的结果。显然,你会认为这会是个问题,因为我们知道旋转蛋白质结构不应该改变其性质,但 Thermonet 实际上在私有和公开排行榜上都胜过了我的 e3nn 网络。不过,这可能是因为我的 e3nn 仅仅是未经过优化,因为我以前从未使用过它,不知道如何很好地使用它。

为了方便起见,我只是将大部分数据流程从 thermonet notebook 移植过来,但不是使用 3D 体素网格,而是使用原子类型和 xyz 坐标作为 e3nn 的输入,这是一个专门设计用于处理具有旋转、平移和置换等变性的 3D 结构的欧几里得神经网络。我的解决方案其余部分与 thermonet notebook 相同。

我的代码:https://github.com/Shujun-He/Novaenzymes

我的 e3nn 的一些显著细节:

  1. 我计算突变位置残基的几何中心,并且只取一定范围(8)内的原子。
  2. 除了原子类型之外的输入节点特征包括残基以及该结构是突变体结构还是野生型(wt)结构。

我在最终提交中使用的 e3nn 在私有/公开排行榜上的得分分别为 0.362/0.346。

集成

我将一个 8 折的 e3nn 与公开的 0.603 notebook (https://www.kaggle.com/code/oxzplvifi/deletion-specific-ensemble) 进行了集成,权重分配为 0.8(公开 0.603 notebook)/ 0.2(8 折 e3nn)。在推理时,我同时使用了 AlphaFold 结构和 Rosetta 弛豫结构(使用 thermonet 代码库生成),并对预测结果取平均值。

参考资料

pLDDT、BLOSUM、DeepDDG 和 DeMaSk 的流程来自:
https://www.kaggle.com/code/dschettler8845/novo-esp-eli5-performant-approaches-lb-0-425
附加参考资料:
https://www.kaggle.com/code/kvigly55/plldt-and-ddg
https://www.kaggle.com/code/lucasmorin/nesp-changes-eda-and-baseline
https://www.kaggle.com/code/hengck23/lb0-335-deepdgg-server-benchmark

差分 pLDDT 流程来自:
https://www.kaggle.com/code/cdeotte/difference-features-lb-0-600
突变 PDB 文件来自:
https://www.kaggle.com/competitions/novozymes-enzyme-stability-prediction/discussion/361816
https://www.kaggle.com/datasets/roberthatch/nesp-kvigly-test-mutation-pdbs

来自 MD 模拟的 RMSD 和 SASA 流程:

同比赛其他方案