返回列表

Brief Summary of 5th Place

402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine

开始: 2020-09-11 结束: 2020-10-06 药物研发 数据算法赛
第5名方案简述

第5名方案简述

作者:tito (Grandmaster) | 比赛排名:第5名

首先,我要感谢 Kaggle 和主办方团队组织了这场有趣的比赛。
能够通过参加这场比赛为 COVID-19 疫苗的研究做出贡献,这是多么棒的一件事啊?
我很激动能成为这场意义非凡的比赛的一部分。

模型

我扩展了以下模型:

最终模型是这两个模型变体的加权平均。

我已经在 这里 分享了一些技术:

  • 数据增强
  • 使用所有数据的样本权重
  • 一些特征提取
  • 基于聚类的交叉验证策略

我主要关注数据预处理。

额外的数据增强

我使用了 eternafold, vienna, nupack, contrafold 和 rnasoft 来提取结构和 loop_type。
这些后端引擎也被用来提取额外的 bpps。
特别是 eternafold 和 contrafold 效果很好。

特征

我提取了以下特征。
详细信息请参考 此处的源代码

  • bpps_sum
  • bpps_max
  • bpps_sum-max
  • 配对的 bpps 值 - 配对的强度。
  • 配对的类型 (CG 或 GU 或 AU 或 None)
  • 配对邻居的信息

一些实验

・130 长度序列训练。
我在训练序列中添加了长度为 39 的虚拟序列。
我原本期望这个模型能提高私有分数,但没有带来显著的改善。

・反向序列
我添加了反向序列数据作为增强数据,同样没有带来显著的改善。但这两种模型对集成有一点帮助。
我只针对 GRU+LSTM 模型尝试了这两种模型。

结果

模型 私有分数 公开分数
AE pretrain + GNN + Attn + CNN 集成 0.34799 0.23260
GRU+LSTM 集成 0.35477 0.24222
所有模型的集成 0.34471 0.23025

我以 0.3447 的私有分数获得了第 5 名。
毋庸置疑,如果没有 Kaggle 社区的投入,我无法做到这一点。
我要感谢 Kaggle 社区,特别是 @xhlulu, @mrkmakr 和 @hengck23!!!

同比赛其他方案