返回列表

#3 Solution

484. Tabular Playground Series - Apr 2022 | tabular-playground-series-apr-2022

开始: 2022-04-01 结束: 2022-04-30 基因组学与生物信息 数据算法赛
#3 解决方案

#3 解决方案

作者: Gilles Vandewiele (团队成员: jeroenvdd, moeflon) | 排名: 第3名

大家好!照例,这是我们竞赛解决方案的简短总结。

首先,恭喜 @davidedwards1@azzamradman 分别获得第一名和第二名。读完他们的方案后,我对 @davidedwards1 解决方案的独创性以及 @azzamradman 单模型获得的分数印象深刻。既然你们都使用了融合方法,我认为我们可以分享另一个易于应用的技巧,可以进一步提高你们的分数!欢迎尝试并告诉我们是否有效 :)。

当然,非常感谢我两位聪明的队友(也是同事)@moeflon@jeroenvdd 的努力和投入。与你们两位一起竞争非常有趣。这也是他们第一次参加 Kaggle 比赛(非课堂内比赛)!我们的队名 来自于我们名字的相似之处:Jeroen Van Der Donckt、Gilles Vandewiele 和 Vic Degraeve。

我想我会让这篇总结保持简短,因为我们解决方案的大部分内容实际上已经由我的队友 @jeroenvdd 公开发布了。这也是我们参加这次比赛的主要动力:尝试我们内部开发的软件包并与 Kaggle 社区分享( tsflexpowershap )。必须向 @ambrosm 致敬,因为他的 notebook 在这次比赛中为我们提供了基准。

常见的对象

我们所有的训练模型都使用了基于 subject 标识符的 10 折分组交叉验证。这使得 CV 分数与 LB 分数非常吻合。

你的形状

我们的团队成员 @moeflon 通过一种独特的特征类型扩展了基于特征的方法,这种特征在 Kaggle 上以前很少使用:shapelets(形状特征)。这些是对某个(组)类别具有预测能力的小子序列。它们可以通过梯度下降(即深度学习)来挖掘。目前最好的公开实现可以在 tslearn 中找到,但 Vic 将代码从 keras 移植到了 torch 以进行一些扩展:学习率调度、早停以及传递额外特征的能力。尤其是最后这个扩展非常有价值,因为形状特征的挖掘是在我们特征提取之后进行的。通过传递我们已经提取的特征,我们迫使网络学习与我们已提取特征互补的形状特征。我们包含这些形状特征的最佳提交在 Public LB 上得分为 0.98052,在 Private LB 上得分为 0.97706

我们的奶昔把所有模型都带到了院子里

额外的 AUC 百分比(Public 分数 0.98052 -> 0.99037)是通过堆叠不同的模型(并在其上拟合一个 catboost 模型)获得的: