402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine
COVID-19 RNA疫苗相关竞赛在Kaggle上举办,时间从9月11日到10月8日,为期一个月。
这项竞赛由斯坦福大学生物化学教授Rhijus Das领导,https://profiles.stanford.edu/rhiju-das。
全球都在努力研发COVID-19疫苗。
然而,虽然已有几种候选疫苗,但据说存在活性降解的问题。
在本次竞赛中,给定每种RNA疫苗序列,目标是预测序列各部分在不同环境条件(pH值、温度)下的反应活性。
数据给出了由A、G、U、C组成的序列、结构信息以及预测的环类型,如下所示。

下面展示了求解过程的简图。
我们需要花一个月的时间优化输入、编码器和头模型 😊

首先,我需要将作为输入的序列转换为数字,然后再将其嵌入编码器。由于这是表达同一RNA的不同方式,可以有两种方法。
a. 将它们一起转换

b. 将它们分别转换

起初我使用了方法a,但因为这是不同的表达方式,所以我测试了方法b。
实际上,方法b在交叉验证(CV)分数上表现更好,所以我选择了方法b。
这些编码后的序列具有(批次大小,序列长度,3)的矩阵形状,经过嵌入层后变为(批次大小,序列长度,嵌入维度)的矩阵。
除了序列外,我还添加了其他特征。RNA序列具有连接的概率。组织者提供了一个称为bpps的(N, N)邻接矩阵。由于每个序列中的标记是到达不同标记和结构的概率值,这可能是一个非常重要的特征,许多Kagglers将此信息放入输入中。
https://www.kaggle.com/xhlulu/openvaccine-simple-gru-model
https://www.kaggle.com/its7171/gru-lstm-with-feature-engineering-and-augmentation
https://www.kaggle.com/hidehisaarai1213/openvaccine-checkout-bpps
此外,还包含了序列具有的统计特征。
结果如下:

竞赛开始时就讨论了使用图神经网络(GNN)的可能性,人们开始使用