返回列表

8th solution

669. Stanford RNA 3D Folding | stanford-rna-3d-folding

开始: 2025-02-27 结束: 2025-09-24 基因组学与生物信息 数据算法赛
第 8 名解决方案 - 微调 Proteinx

第 8 名解决方案

微调 Proteinx

作者:Wenxuan Ye (akomwins)
发布时间:2025-10-05
竞赛排名:第 8 名

感谢主办方举办如此有趣的比赛。

老实说,我差点忘了这个比赛,因为我在公共排行榜上的成绩不够理想。但最后私人排行榜公布时我非常高兴,因为这是我的第一枚金牌,我认为这很大程度上归功于运气,因为我觉得我的微调模型得到了合理的收敛。

  • 比赛开始时,我花了很多时间研究由 drfold-no-msa 提出的公共 notebook。结果很清楚,主要的挑战是成功运行代码并转换 XYZ 坐标。这个 notebook 帮助我在公共排行榜上获得了第 11 名,但后来 proteinx notebook 被提出后,排名下降了。

  • 后来,感谢 Proteinx 代码,我下载了训练数据并将其转换为用于微调模型所需的格式。我尝试了几次不同的学习率(LR)和裁剪长度(CROP LENGTH)。最终我得到了最好的结果(我不记得具体的设置了,因为没有记录实验结果),并在最后一天提交到了比赛。

  • 由于我需要 995 工作制,我有一些尚未实施的想法。
    1) 也许我们可以像 BERT 预训练那样随机掩码序列中的项,然后用训练数据微调模型,这个想法可以帮助模型对缺失序列更鲁棒。
    2) 在推理阶段,由于 GPU 的限制,当序列太长时 proteinx 会遇到错误。我想我们可以在训练和推理中始终使用最后 300 个序列来预测最终项。例如,如果序列长于 300,我们首先使用前 300 个预测 XYZ,然后移动窗口长度(16,32,64),接着在下一个起点开始推理。

顺便说一句,我正在寻找 AI 相关的工作,哈哈。如果你正在寻找合作伙伴,请联系我~

同比赛其他方案