返回列表

#4 solution

484. Tabular Playground Series - Apr 2022 | tabular-playground-series-apr-2022

开始: 2022-04-01 结束: 2022-04-30 基因组学与生物信息 数据算法赛
#4 solution

第4名方案

作者:Youri Matiounine (Grandmaster) | 排名:第4名

最好的单一模型似乎是基于 LSTM 层的;我也尝试过创建自己的模型,但效果不如公开的最佳 LSTM 模型,所以我最终使用了公开的 LSTM 模型,而不是我自己开发的模型(感谢所有开发并发布这些模型的人)。

LSTM 模型似乎缺失的是按主体聚合的信息(所有 LSTM 模型一次只查看一个序列,因此缺失了所有的主体信息)。

为了克服这一限制,我构建了一个 LightGBM 模型,其输入包含了按主体以及按序列聚合的特征,并将最佳 LSTM 模型的预测结果作为特征之一(也以多种方式按主体进行了聚合)输入给该模型。为此,我不得不重新运行 LSTM 模型,以获取它们对训练数据的预测结果(折外预测,out of fold),除了对测试数据的预测之外。

就是这样。这种形式的模型堆叠似乎比简单的融合能产生更好的协同效应。

同比赛其他方案