525. Novozymes Enzyme Stability Prediction | novozymes-enzyme-stability-prediction
首先,我们非常高兴能参与这样一场非同寻常且有趣的比赛,非常感谢组织者以及在比赛期间无私分享知识的竞争对手们:@vslaykovsky, @oxzplvifi, @dschettler8845, @kvigly55, @cdeotte, @shlomoron …… 如果我遗漏了谁,请告诉我。
非常感谢我伟大的团队 QuData:@synset, @alexz0, @kerrit 和 @semenb,你们太棒了!尽管乌克兰持续停电,火箭弹就在头顶爆炸,我们依然享受沉浸在生物化学的世界中。

在比赛开始时,我们注意到 https://www.kaggle.com/code/vslaykovsky/nesp-thermonet 这种方法对热稳定性预测有很大贡献。
我们研究了这篇文章 https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008291 中的材料,决定尝试不同的神经网络架构,最终采用了 Resnet-3D,公榜得分为 0.488。
然后我们想知道网络的哪些部分真正影响了结果。通过迭代剪枝网络,我们得出了一个相当简单的架构:
def forward(self, x):
x = x.mean(axis=(2,3,4))
return -x[:,3]
输入使用了与 Thermonet 工作相同的形状:(14,16,16,16)。
这个模型在公榜上的指标为 0.477。因此,对单个参数 hbond_donor(氢键供体)进行平均得出了相当高的结果。
为了改进指标,我们使用 molekulekit 工具构建了不同版本的特征描述符。最佳参数为:boxsize:16, voxelsize: 0.5,这将公榜分数提高到了 0.482。这个我们称之为 AVGP3 的模型成为了我们最终集成解决方案的一部分。
感谢这个笔记本 https://www.kaggle.com/code/oxzplvifi/deletion-specific-ensemble,我们注意到 Rosetta 分数也能很好地预测热稳定性。
在集成中结合两种方法(0.5 rosetta + 0.5 AVGP3),我们在公榜上得到了 0.590,最终在私榜上得到了 0.540(第4名)。但不幸的是,我们在最终提交中没有选择这个结果。
接下来,AVGP3 的结果与
同比赛其他方案