8th place solution

402. OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction | stanford-covid-vaccine

开始: 2020-09-11 结束: 2020-10-06 药物研发数据算法赛

第8名解决方案

第8名解决方案

作者：ishikei (Grandmaster)

输入特征

序列、结构、预测的环类型
碱基对概率矩阵的总和与最大值 (vienna(T=37, 50), nupack(T=37, 50), rnastructure(T=37, 50), rnasoft(T=37), eternafold(T=37), contrafold(T=37)) (使用 ARNIE 库)
香农熵 (参见此讨论帖)

模型

LSTM, GRU (带有 / 不带自编码器预训练)
GNN + Transformer (带有 / 不带自编码器预训练)

我的模型基于以下优秀的公开 Notebook：

验证策略

训练时不使用 SN_filter (样本权重=0.5*log(signal_to_noise+1.1))，并使用 SN_filter 进行验证。
10折交叉验证
KFold, StratifiedKFold(分箱后的反应性), GroupKFold(序列聚类)
对于所有模型，我取了上述 3 种验证方式所得预测结果的平均值。

模型集成

权重根据 Public LB（公开排行榜）的分数确定。
本地 CV（交叉验证）、Public LB 和 Private LB（私有排行榜）均具有相关性。

备注

因为本次比赛中的所有数据（除了序列）都是预测值，我认为使用来自不同算法的 bpps（碱基对概率）预测结果进行集成是非常有效的。
（如果能从各种 bpps 预测中重新生成结构和预测环类型就好了，但我时间不够。）
关于高温：由于 RNA 的二级结构依赖于温度，我认为使用改变温度 T 的 bpps 作为输入是有效的。
关于高 pH 值：RNA 的碱水解可能发生在序列的任何位置（大概），因此预测本身就很困难。

同比赛其他方案

1st place solution

2nd Place Solution

3rd Place Write-up [UPDATED]

4th place solution: code & blog published

Brief Summary of 5th Place