3rd Place Solution

第三名解决方案 – 斯坦福 RNA 3D 折叠

作者: Yehyun Kim (及团队成员 RyanKim99, ouiqdmw)

发布时间: 2025-09-29

竞赛排名: 公共排行榜第 3 名 | 私有排行榜第 3 名

首先，感谢 Kaggle 和组织者举办如此具有挑战性和有趣的竞赛。

我们在 unseen 数据发布前的公共排行榜上排名第 3，并且在私有排行榜上也排名第 3。

早些时候我们分享了解决方案的简要概述。这篇帖子将详细介绍更多内容。

解决方案 summary

rMSA
我们使用主办方提供的官方 rMSA 代码生成了自己的 rMSA 数据。
- 主办方发布的 v2 rMSA 并未涵盖最近发布的全部数据，因此我们必须构建自己的数据。
- 即使使用多进程和几台服务器，这个过程也花了大约 14 天。
- 我们的 rMSA 数据在此处 available: Google Drive。
训练数据集
我们测试了两个版本：
1. 完整 RNA 数据集 – 包含所有最近可用的数据，例如由 @tant64 上传的 CASP16。为了检查质量，我们将部分标签与 CASP16 GitLab 仓库进行了比较。
2. 仅 RNA 数据集 – 排除了复合物（与蛋白质/DNA 结合的 RNA），遵循主办方在此处的澄清链接。

两个版本的训练数据和标签均可在此处获取：Google Drive。

我们使用来自以下官方仓库的模型构建了集成：

我们最初探索了新的架构，但鉴于时间和资源限制，专注于微调和组合现有模型更为有效。

我们正在分享原始的提交 Notebook。部分代码被注释掉，显示了我们的实验历史。

DRfold2 + Protenix
- 公共排行榜：0.60338 | 私有排行榜：0.52787
- <400 nt: 3 × DRfold2 + 2 × Protenix (仅 RNA, 带 MSA)
- >400 nt: 2 × Protenix (仅 RNA) + 2 × Protenix (全部) + Protenix 基线
Protenix + Boltz
- 公共排行榜：0.61253 | 私有排行榜：0.54312
- 2 × Protenix (仅 RNA) + Protenix (全部) + Protenix 基线 + Boltz 基线

非常感谢分享资源和见解的社区成员：

最后，感谢 Eigen Company 为本次竞赛提供资源。

DRfold2 + Protenix 提交代码 公共 LB: 0.60338 | 私有 LB: 0.52787 Protenix + Boltz 提交代码 公共 LB: 0.61253 | 私有 LB: 0.54312 rMSA 数据 Google Drive 下载链接 训练数据集 & 标签 Google Drive 下载链接