返回列表

33rd Place - RNA Folding Analysis

402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine

开始: 2020-09-11 结束: 2020-10-06 药物研发 数据算法赛
第33名 - RNA折叠分析

OpenVaccine: COVID-19

我很高兴能获得单人银牌。感谢 Eterna 和 Kaggle 主办这场有趣且重要的比赛。五天前,我对 RNA 还一无所知。现在我了解了基础知识,并且渴望进一步探索这个神秘的分子。

独特的比赛

这是一场独特的比赛。当我们调用 model.fit(X, y) 时,我们使用特征 X 来预测目标 y。许多 Kaggle 比赛由于人工标注而存在噪声目标 y。而这次比赛不仅有噪声目标,还有噪声特征!提供的特征 X 只是估计值而非真实值,目标 y 也是估计值!

私有测试集 id_01cd826d9

这是私有测试集 RNA id_01cd826d9。提供的结构如下所示。(图表使用了 @its7171notebook

RNA折叠 id_01cd826d9 的不确定性

上面提供的结构只是一个猜测。我们在图中看到存在吸引力 (1)(2)。正如 bpps 矩阵所示,碱基 AU 各有 14% 的概率结合。因此,私有测试集 id_01cd826d9 实际上可能具有以下结构。注意,我在下图中更改了配色方案。蓝色表示结合概率高,黄色表示概率低。

RNA折叠 id_01cd826d9 的不确定性

我们仍然不知道结构是否如上所述。我们注意到存在吸引力 (3)(4)(5)。因此,RNA 可能折叠成以下形式

处理不确定性

由于结构不确定,我做了两件事。

  • bpps 矩阵转换为彩色图像,并将其卷积为模型的嵌入向量
  • 预测每个测试 RNA 的前 3 种折叠情况的目标值,并根据概率进行平均

如果我有更多时间,我会使用训练图像的所有不同折叠进行训练,并根据其概率设置训练样本权重。

BPPS 矩阵

下面是一个 BPPS 矩阵示例。要将这些输入 CNN,首先倾斜矩阵。然后矩阵中的每个数字代表三种键类型之一:(1) C-G (2) A-U (3) G-U。分别将该单元格变为红色、绿色、蓝色。将颜色的强度设置为矩阵中的值。接下来进行卷积,保持 seq_length,但使用 strides 来减少另一个维度

同比赛其他方案