669. Stanford RNA 3D Folding | stanford-rna-3d-folding
首先,我要感谢 Kaggle 和竞赛组织者举办了这样一个令人兴奋且充满挑战的活动。
在隐藏测试集发布之前,我在公共排行榜上排名第 29 位,在最终的私有排行榜上排名第 25 位。
在这篇文章中,我想简要分享我的方法。
由于我是 solo 参赛,计算资源、时间和技能有限,我没有进行任何微调。
相反,我的策略侧重于如何从现有模型生成的多个预测中选择最准确的结构。
当竞赛中期刷新排行榜时,我的排名保持相对稳定。这让我相信这种基于选择的方法有一定潜力。
对于最终提交,我依赖了 Proteinx、DRfold2 和 Boltz。
以下是我如何使用每个模型的:
第一次排行榜刷新后,我确定了 20 个使用 cfg_99 配置生成的预测集,它们显示出稳定且相对较高的分数。
由于推理时间限制,我将此减少到 12 个集进行进一步处理。
对于每个集:
最后,我包括了:
目标是保持最终预测的多样性,而不是仅仅依赖最低能量的结构。
对于 Boltz,我设置 diffusion_samples=3 来生成三个候选结构。
其中,我基于以下标准选择了最终预测:
我记得使用这种选择方法使我的分数有了显著提高。
我用两个不同的种子重复了这个过程,并从每个种子中选择了最佳结构。
对于 Proteinx,我设置 --sample_diffusion.N_sample=3 来生成三个结构。
由于 JSON 输出中可用 pLDDT 分数,我只是选择了得分最高的结构用于最终提交。
我深深感谢组织者提供了这样一个充满挑战和回报的竞赛。
我也感谢所有在讨论论坛中分享宝贵见解的参与者。
这是我迄今为止投入最多时间和精力的 Kaggle 竞赛,我对结果非常满意。
我期待未来参加类似的挑战!