返回列表

9th solution

402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine

开始: 2020-09-11 结束: 2020-10-06 药物研发 数据算法赛
第9名方案:坚持直到成为Grandmaster

1. 简介

COVID-19 RNA疫苗相关竞赛在Kaggle上举办,时间从9月11日到10月8日,为期一个月。
这项竞赛由斯坦福大学生物化学教授Rhijus Das领导,https://profiles.stanford.edu/rhiju-das

全球都在努力研发COVID-19疫苗。
然而,虽然已有几种候选疫苗,但据说存在活性降解的问题。

在本次竞赛中,给定每种RNA疫苗序列,目标是预测序列各部分在不同环境条件(pH值、温度)下的反应活性。

2. 数据

数据给出了由A、G、U、C组成的序列、结构信息以及预测的环类型,如下所示。

数据示例

3. 方法论

下面展示了求解过程的简图。
我们需要花一个月的时间优化输入、编码器和头模型 😊

方法论流程

4. 解决方案

首先,我需要将作为输入的序列转换为数字,然后再将其嵌入编码器。由于这是表达同一RNA的不同方式,可以有两种方法。

a. 将它们一起转换
转换方法A

b. 将它们分别转换
转换方法B

起初我使用了方法a,但因为这是不同的表达方式,所以我测试了方法b。
实际上,方法b在交叉验证(CV)分数上表现更好,所以我选择了方法b。

这些编码后的序列具有(批次大小,序列长度,3)的矩阵形状,经过嵌入层后变为(批次大小,序列长度,嵌入维度)的矩阵。

我的方案

除了序列外,我还添加了其他特征。RNA序列具有连接的概率。组织者提供了一个称为bpps的(N, N)邻接矩阵。由于每个序列中的标记是到达不同标记和结构的概率值,这可能是一个非常重要的特征,许多Kagglers将此信息放入输入中。
https://www.kaggle.com/xhlulu/openvaccine-simple-gru-model
https://www.kaggle.com/its7171/gru-lstm-with-feature-engineering-and-augmentation
https://www.kaggle.com/hidehisaarai1213/openvaccine-checkout-bpps

此外,还包含了序列具有的统计特征。
结果如下:

特征工程结果

竞赛开始时就讨论了使用图神经网络(GNN)的可能性,人们开始使用

同比赛其他方案