Brief Summary of 5th Place

第5名方案简述

作者：tito (Grandmaster) | 比赛排名：第5名

首先，我要感谢 Kaggle 和主办方团队组织了这场有趣的比赛。
能够通过参加这场比赛为 COVID-19 疫苗的研究做出贡献，这是多么棒的一件事啊？
我很激动能成为这场意义非凡的比赛的一部分。

模型

我扩展了以下模型：

最终模型是这两个模型变体的加权平均。

我已经在这里分享了一些技术：

我主要关注数据预处理。

我使用了 eternafold, vienna, nupack, contrafold 和 rnasoft 来提取结构和 loop_type。
这些后端引擎也被用来提取额外的 bpps。
特别是 eternafold 和 contrafold 效果很好。

我提取了以下特征。
详细信息请参考此处的源代码：

・130 长度序列训练。
我在训练序列中添加了长度为 39 的虚拟序列。
我原本期望这个模型能提高私有分数，但没有带来显著的改善。

・反向序列
我添加了反向序列数据作为增强数据，同样没有带来显著的改善。但这两种模型对集成有一点帮助。
我只针对 GRU+LSTM 模型尝试了这两种模型。

我以 0.3447 的私有分数获得了第 5 名。
毋庸置疑，如果没有 Kaggle 社区的投入，我无法做到这一点。
我要感谢 Kaggle 社区，特别是 @xhlulu, @mrkmakr 和 @hengck23！！！