402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine
首先,我要感谢 Kaggle 和主办方团队组织了这场有趣的比赛。
能够通过参加这场比赛为 COVID-19 疫苗的研究做出贡献,这是多么棒的一件事啊?
我很激动能成为这场意义非凡的比赛的一部分。
我扩展了以下模型:
最终模型是这两个模型变体的加权平均。
我已经在 这里 分享了一些技术:
我主要关注数据预处理。
我使用了 eternafold, vienna, nupack, contrafold 和 rnasoft 来提取结构和 loop_type。
这些后端引擎也被用来提取额外的 bpps。
特别是 eternafold 和 contrafold 效果很好。
我提取了以下特征。
详细信息请参考 此处的源代码:
・130 长度序列训练。
我在训练序列中添加了长度为 39 的虚拟序列。
我原本期望这个模型能提高私有分数,但没有带来显著的改善。
・反向序列
我添加了反向序列数据作为增强数据,同样没有带来显著的改善。但这两种模型对集成有一点帮助。
我只针对 GRU+LSTM 模型尝试了这两种模型。
| 模型 | 私有分数 | 公开分数 |
|---|---|---|
| AE pretrain + GNN + Attn + CNN 集成 | 0.34799 | 0.23260 |
| GRU+LSTM 集成 | 0.35477 | 0.24222 |
| 所有模型的集成 | 0.34471 | 0.23025 |
我以 0.3447 的私有分数获得了第 5 名。
毋庸置疑,如果没有 Kaggle 社区的投入,我无法做到这一点。
我要感谢 Kaggle 社区,特别是 @xhlulu, @mrkmakr 和 @hengck23!!!