第六名解决方案 - Stanford RNA 3D Folding
第六名解决方案
基于单模型深度学习的方法
首先,非常感谢组织者和 Kaggle 举办这次比赛!这是一次非常棒的经历,能够在这个挑战中工作并与大家进行如此活跃的讨论。
我们的解决方案
解决方案概述
我们的工作基于 AlphaFold 3 [1]。最终模型采用基于单模型深度学习的方法。基本上,我们利用 RNA 基础模型 AIDO.RNA [3],将其表示集成到 Protenix [2] 中,并在 RNA3DB 数据库 [5] 上微调模型。
详细解决方案
- 我们使用 AIDO.RNA 的嵌入向量增强 Protenix,这是一个在 4200 万个非编码 RNA 序列上预训练的语言模型。
- 我们在 RNA3DB 上微调模型,AIDO.RNA 保持冻结。RNA3DB 是一个经过精心策划的非冗余 RNA 3D 结构数据库,具有基于序列的聚类。
- 我们使用 2024-12-04 RNA3DB 版本中的所有数据
- lr=5e-4, warmup_steps=200, max_steps=10,000, train_crop_size=640, global_batch_size=16
- 模型权重的指数移动平均 (EMA),衰减率为 0.999
- 训练期间不使用 MSAs(多序列比对)
- 对于推理,我们使用在第 1600 训练步保存的 EMA 检查点,以及 Protenix 中的默认推理设置
- seed=101, n_cycle=10, n_sample=5, n_step=200
- 推理期间我们使用 MSAs
性能概述
- 公共排行榜 (Public LB): 0.42849 -> 排名第 12
- 私有排行榜 (Private LB): 0.49758 -> 排名第 6
经验总结
无效的方法
- 模型集成:对于 > 350 个核苷酸的序列微调 Protenix,对于 <= 350 个核苷酸的序列使用 DRFold2 [6]
- DRFold2
cfg_99 对我们来说是最好的检查点。
- DRFold2 自定义 C1 位置估计的表现优于基于 P、C4 和 N1/N9 原子坐标的自定义 C1 估计。
- 更多的 DRFold2 循环,12 次似乎是最佳的。
- 生成 20 个候选结构,选择一个作为参考,并使用 USalign 将剩余候选结构对齐到参考结构。然后,计算平均坐标。
- 我们基于结构之间的成对 dRMAE 和 TM 分数训练了一个排序器。使用 map@5 作为评估指标。LGBM 排序器没有产生显著提升,20 个候选者的 OOF map@5 = 0.7x。
参考文献
- Accurate structure prediction of biomolecular interactions with AlphaFold 3. Google DeepMind. Nature, 2024.
- Protenix-advancing structure prediction through a comprehensive AlphaFold3 reproduction. ByteDance AML AI4Science Team. bioRxiv, 2025.
- A large-scale foundation model for rna function and structure prediction. Zou et al. bioRxiv, 2024. [Hugging Face Models]
- Rapid and Reproducible Multimodal Biological Foundation Model Development with AIDO.ModelGenerator. Caleb et al. bioRxiv, 2025.
- RNA3DB: A structurally-dissimilar dataset split for training and benchmarking deep learning models for RNA structure prediction. Szikszai et al. bioRxiv, 2024.
- Ab initio RNA structure prediction with composite language model and denoised end-to-end learning. Li et al. bioRxiv, 2025.