返回列表

#39 Solution soon. Congrats to everyone. Thanks to Hengck23

402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine

开始: 2020-09-11 结束: 2020-10-06 药物研发 数据算法赛
#39 解决方案即将发布。恭喜大家。感谢 Hengck23

#39 解决方案即将发布。恭喜大家。感谢 Hengck23

作者: SeshuRaju 🧘‍♂️ | 发布时间: 2020-10-07

感谢我的团队(@gopidurgaprasad@aayushchou@jagadish13),Kaggle 团队,特别是 @hengck23,没有你,我们的团队无法达成这一目标。我们将在几小时内分享我们的方案。现在是睡觉时间。

这次比赛的魔法在于 Hengck23 的讨论、分享的代码以及新学到的东西。
Competition Screenshot
即将发布...

https://github.com/seshurajup/kaggle-stanford-covid-vaccine (包含论文、讨论、本地 CV)

很快会分享代码。

背景资料

  • Youtube: 理解 RNA 折叠能量点图
  • 利用二维深度神经网络集成和迁移学习进行 RNA 二级结构预测

    • 我们人类基因组的大部分转录为结构和功能未知的非编码 RNA。为非编码 RNA 获取功能线索需要准确的碱基配对或二级结构预测。然而,当前基于折叠算法的预测性能已经停滞了十多年。在这里,我们提议使用深度上下文学习进行碱基对预测,包括那些由三级相互作用稳定的非规范和非嵌套(假结)碱基对。由于只有不到 250 个非冗余、高分辨率的 RNA 结构可用于模型训练,我们利用迁移学习,初始模型是在通过比较分析获得的超过 10,000 个非冗余 RNA 的最新高质量 bpRNA 数据集上训练的。由此产生的方法(SPOT-RNA)在预测所有碱基对方面取得了巨大的、具有统计显著性的改进,特别是非规范和非嵌套碱基对。提议的方法(SPOT-RNA)提供免费的服务器和独立软件,应该有助于改进 RNA 结构建模、序列比对和功能注释。
    • https://www.kaggle.com/c/stanford-covid-vaccine/discussion/182303
    • https://dash.plotly.com/dash-bio/fornacontainer
    • 在我之前参加的 DNA 竞赛中,编码 k-mers 比使用单个核苷酸能获得更好的结果,例如:
      单个核苷酸:GACGACG --> 1,2,3,1,2,3,1
      k-mers: [GAC][GAC][G…] --> 47, 47, 56, …
  • Arnie 软件

    • 用于计算 RNA 能量学的 Python API,并可在多个二级结构包中进行结构预测。
    • Jupyter Notebook
  • [通过高通量实验对 RNA 二级结构包进行排名和改进](计算机辅助研究和设计 RNA 分子在一系列学科中日益普遍,但人们对常用结构预测包在实际任务中的准确性知之甚少。在这里,我们使用 EternaBench 评估当前包的性能,该数据集包含来自众包 RNA 设计项目 Eterna 的 23 个体外结构图谱和 11 个核糖开关活性数据集,涉及 18,509 个合成序列。我们发现 CONTRAfold 和 RNAsoft(通过统计学习得出参数的包)比 ViennaRNA 等更广泛使用的包(其参数主要来自热力学实验)具有更高的准确性。受这些结果的启发,我们开发了一种基于多任务学习的模型 EternaFold,

同比赛其他方案