返回列表

8-th place solution - AVGP3 + Rosetta

525. Novozymes Enzyme Stability Prediction | novozymes-enzyme-stability-prediction

开始: 2022-09-21 结束: 2023-01-03 药物研发 数据算法赛
第8名解决方案 - AVGP3 + Rosetta

第8名解决方案 - AVGP3 + Rosetta

作者: AndreyBeyn (QuData 团队) | 排名: 第8名

首先,我们非常高兴能参与这样一场非同寻常且有趣的比赛,非常感谢组织者以及在比赛期间无私分享知识的竞争对手们:@vslaykovsky, @oxzplvifi, @dschettler8845, @kvigly55, @cdeotte, @shlomoron …… 如果我遗漏了谁,请告诉我。

非常感谢我伟大的团队 QuData:@synset, @alexz0, @kerrit@semenb,你们太棒了!尽管乌克兰持续停电,火箭弹就在头顶爆炸,我们依然享受沉浸在生物化学的世界中。

AVGP3

Thermonet features

在比赛开始时,我们注意到 https://www.kaggle.com/code/vslaykovsky/nesp-thermonet 这种方法对热稳定性预测有很大贡献。

我们研究了这篇文章 https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008291 中的材料,决定尝试不同的神经网络架构,最终采用了 Resnet-3D,公榜得分为 0.488。

然后我们想知道网络的哪些部分真正影响了结果。通过迭代剪枝网络,我们得出了一个相当简单的架构:

def forward(self, x): 
    x = x.mean(axis=(2,3,4))
    return -x[:,3]

输入使用了与 Thermonet 工作相同的形状:(14,16,16,16)。

这个模型在公榜上的指标为 0.477。因此,对单个参数 hbond_donor(氢键供体)进行平均得出了相当高的结果。

为了改进指标,我们使用 molekulekit 工具构建了不同版本的特征描述符。最佳参数为:boxsize:16, voxelsize: 0.5,这将公榜分数提高到了 0.482。这个我们称之为 AVGP3 的模型成为了我们最终集成解决方案的一部分。

Rosetta

感谢这个笔记本 https://www.kaggle.com/code/oxzplvifi/deletion-specific-ensemble,我们注意到 Rosetta 分数也能很好地预测热稳定性。

在集成中结合两种方法(0.5 rosetta + 0.5 AVGP3),我们在公榜上得到了 0.590,最终在私榜上得到了 0.540第4名)。但不幸的是,我们在最终提交中没有选择这个结果。

接下来,AVGP3 的结果与

同比赛其他方案