返回列表

8th place solution

402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine

开始: 2020-09-11 结束: 2020-10-06 药物研发 数据算法赛
第8名解决方案

第8名解决方案

作者:ishikei (Grandmaster)

输入特征

  • 序列、结构、预测的环类型
  • 碱基对概率矩阵的总和与最大值 (vienna(T=37, 50), nupack(T=37, 50), rnastructure(T=37, 50), rnasoft(T=37), eternafold(T=37), contrafold(T=37)) (使用 ARNIE 库)
  • 香农熵 (参见此讨论帖)

模型

  • LSTM, GRU (带有 / 不带自编码器预训练)
  • GNN + Transformer (带有 / 不带自编码器预训练)

我的模型基于以下优秀的公开 Notebook:

验证策略

  • 训练时不使用 SN_filter (样本权重=0.5*log(signal_to_noise+1.1)),并使用 SN_filter 进行验证。
  • 10折交叉验证
  • KFold, StratifiedKFold(分箱后的反应性), GroupKFold(序列聚类)
  • 对于所有模型,我取了上述 3 种验证方式所得预测结果的平均值。

模型集成

  • 权重根据 Public LB(公开排行榜)的分数确定。
  • 本地 CV(交叉验证)、Public LB 和 Private LB(私有排行榜)均具有相关性。

备注

  • 因为本次比赛中的所有数据(除了序列)都是预测值,我认为使用来自不同算法的 bpps(碱基对概率)预测结果进行集成是非常有效的。
  • (如果能从各种 bpps 预测中重新生成结构和预测环类型就好了,但我时间不够。)
  • 关于高温:由于 RNA 的二级结构依赖于温度,我认为使用改变温度 T 的 bpps 作为输入是有效的。
  • 关于高 pH 值:RNA 的碱水解可能发生在序列的任何位置(大概),因此预测本身就很困难。
同比赛其他方案