402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine
我很高兴能获得单人银牌。感谢 Eterna 和 Kaggle 主办这场有趣且重要的比赛。五天前,我对 RNA 还一无所知。现在我了解了基础知识,并且渴望进一步探索这个神秘的分子。
这是一场独特的比赛。当我们调用 model.fit(X, y) 时,我们使用特征 X 来预测目标 y。许多 Kaggle 比赛由于人工标注而存在噪声目标 y。而这次比赛不仅有噪声目标,还有噪声特征!提供的特征 X 只是估计值而非真实值,目标 y 也是估计值!
id_01cd826d9这是私有测试集 RNA id_01cd826d9。提供的结构如下所示。(图表使用了 @its7171 的 notebook)

id_01cd826d9 的不确定性上面提供的结构只是一个猜测。我们在图中看到存在吸引力 (1) 和 (2)。正如 bpps 矩阵所示,碱基 A 和 U 各有 14% 的概率结合。因此,私有测试集 id_01cd826d9 实际上可能具有以下结构。注意,我在下图中更改了配色方案。蓝色表示结合概率高,黄色表示概率低。

id_01cd826d9 的不确定性我们仍然不知道结构是否如上所述。我们注意到存在吸引力 (3)、(4)、(5)。因此,RNA 可能折叠成以下形式

由于结构不确定,我做了两件事。
bpps 矩阵转换为彩色图像,并将其卷积为模型的嵌入向量如果我有更多时间,我会使用训练图像的所有不同折叠进行训练,并根据其概率设置训练样本权重。
下面是一个 BPPS 矩阵示例。要将这些输入 CNN,首先倾斜矩阵。然后矩阵中的每个数字代表三种键类型之一:(1) C-G (2) A-U (3) G-U。分别将该单元格变为红色、绿色、蓝色。将颜色的强度设置为矩阵中的值。接下来进行卷积,保持 seq_length,但使用 strides 来减少另一个维度