返回列表

[Updated with code] 13th place solution - Arnie Ensemble

402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine

开始: 2020-09-11 结束: 2020-10-06 药物研发 数据算法赛
第13名解决方案 - Arnie 集成模型

第13名解决方案 - Arnie 集成模型

作者: KarimAmer, Mohamed Fares
比赛排名: 第13名

更新:您可以在此处找到我们的解决方案代码 GitHub链接

首先,祝贺所有的获奖者,也非常感谢组织者。

对我们来说,这是非常令人困惑的一天,我们的排名从公开榜的第95名跌至私有榜初期的第730名,最终定格在第13名,赢得了我们的第一枚金牌 😁。

我们方法的核心思想是从 Arnie 包含的所有库中生成 bpp 矩阵(碱基对概率矩阵),根据每个库的输出结构训练一个模型,最后将所有训练好的模型进行集成。

模型架构

主要架构包括:

  1. 一个 1D 卷积层
  2. 一个边卷积层
  3. 两个双向 LSTM 层
  4. 一个边卷积层
  5. 一个线性层

边卷积层处理二级结构中每两个连接的核苷酸(当核苷酸未连接时添加零)。我认为这与 @kingychiu 在他的 帖子 中描述的类似,但我在每个 1D 卷积层和边卷积层之后分别添加了实例归一化和 ReLU 激活函数。

输入特征

  • 核苷酸的独热编码
  • 预测环类型的独热编码
  • 二级结构的独热编码
  • bpp 总和

训练配置

每个单一模型的训练方式如下:

  • 5 折交叉验证
  • 结构增强:为每个序列生成 5 个结构(log gamma 0 到 4)及其对应的预测环类型
  • 自监督学习:预测随机丢弃的核苷酸
  • 快照集成
  • 对所有生成的结构进行测试时增强(TTA)

最终提交

我的最终提交是基于 Arnie 中所有库在 T=37 和 T=50 时的输出训练的主架构(以及其他变体)的平均集成。

为了确保我们没有过拟合训练中的短序列,我们在任何模型中都没有使用 Batchnorm 或距离特征,并且只信任我们的 CV 分数。

最后,我们要感谢 @its7171@mrkmakr 提供的精彩内核,我们的解决方案正是基于此构建的。

一切赞颂全归真主。

同比赛其他方案