返回列表

#2 solution

477. Tabular Playground Series - Feb 2022 | tabular-playground-series-feb-2022

开始: 2022-02-01 结束: 2022-02-28 基因组学与生物信息 数据算法赛
#2 解决方案

#2 解决方案

作者:JamieWallis | 发布时间:2022-03-01 | 比赛排名:第2名

首先,祝贺所有参加这次比赛的人,大家都做得很好。对我来说,我确实有机会学习很多新技术,所以感谢 Kaggle 举办这次比赛。

我的最终解决方案由 6 个解决方案的投票集成组成(两个基于树的方法,两个基于基础聚类的方法,两个优化聚类方法)。

基于树的方法

我使用的两种基于树的方法是额外树分类器和 lightGBM 分类器。两者都通过 RandomSearchCV 进行了单独优化。

初始聚类

最初,我从两个调整过的 KNN 聚类解决方案开始,一个使用欧几里得距离,另一个使用曼哈顿距离。当单独运行时,曼哈顿 KNN 的表现优于欧几里得 KNN。

优化聚类

然后,我尝试使用一种我认为适合该数据的方法。由于数据由直方图数据组成,我开始研究适合直方图的距离度量。此外,利用关于特征之间相似性的信息,例如 A10T0G0C0 和 A9T1G0C0 之间的差异远小于与 A0T0G0C10 相比的差异。这让我找到了一种我以前从未听说过的度量标准,称为推土机距离,它本质上测量将一个直方图转换为另一个直方图所需的工作量。这种方法背后的逻辑是,相同种类的细菌在将直方图从一个样本转移到下一个样本时所需的工作量较少,而将一种细菌的直方图转移到另一种细菌所需的工作量较多。这种方法的挑战在于计算 EMD 距离的计算成本很高。计算所有样本之间的 EMD 是不可行的,所以我改为通过欧几里得和曼哈顿距离找到每个样本的 30 个最近邻居,在这 30 个邻居中通过 EMD 找到最近的邻居并将其分配为同一类。我怀疑如果我有更多的时间来计算所有的距离,这个方法可以进一步改进。

再次感谢 Kaggle 举办这次比赛,也感谢所有参与的人。

祝好,

Jamie

同比赛其他方案