517. Open Problems - Multimodal Single-Cell Integration | open-problems-multimodal
感谢竞赛主办方、Kaggle团队、Saturn Cloud团队,并祝贺所有的获奖者!
虽然已经有许多优秀的方案被发布,而且我的方案可能不包含新的方法,但我还是想留下我在过去两个月里的努力成果。在这段时间里,我学到了很多东西。感谢所有参赛者带来的精彩比赛。
如果这篇帖子难以阅读或下方的示意图看不清楚,请原谅,因为我的英语水平不是很好,而且我的教育背景与计算机科学或机器学习领域不同。
使用的机器学习算法如下:
就我而言,堆叠方案提高了分数。第一层模型的输出被连接起来,然后作为第二层的输入。在标准化后对连接的第一层输出应用降维是有效的。当输出只是连接而没有降维时,第二层的分数反而比第一层低。
此外,集成效果很好。我创建了几个略有不同的模型(不同的降维算法、特征提取方法和损失函数)并将它们混合。此外,每个学习过程都在15个随机种子上进行,结果取平均值。
我使用了简单的KFold(k = 5)。幸运的是,我在Private LB(私有排行榜)上经历了排名波动。
我的Citeseq堆叠方案示意图如下。
在第一层进行降维或特征提取之前,根据 AmbrosM的代码,剔除了训练集或测试集中恒定的所有特征集。
该方案几乎与Citeseq相同。不同之处如下: