517. Open Problems - Multimodal Single-Cell Integration | open-problems-multimodal
我认为最有帮助的是:
众所周知,MSE 对于比赛指标来说并不是一个很好的损失函数。因此,在每个折内,我们训练了 4 个基础模型,并将其特征用作 NN(神经网络)的输入。
我们在它们的预测中加入了大量噪声,以确保 NN 也能从其他特征中学习。
self.blender = torch.nn.Sequential(
GaussianNoise(self.blend_noise),
torch.nn.Linear(out_dim * 4, 128),
torch.nn.LayerNorm(128),
activation(),
torch.nn.Dropout(self.blend_dropout),
)
本节中的技巧提高了 Public 和 Private LB(排行榜)成绩,但我们无法比较 CV(交叉验证),因为这是一种 CV 方案的变更。幸运的是,它在 Public 和 Private 上都表现(相对)良好。
众所周知,训练集、Private 和 Public 测试集之间存在一些微妙的域偏移。然而,困难在于这种偏移至少发生在三个方向上(供体、天数、细胞类型)。为了创建一个困难但又不至于太难的 CV 方案,我们发现对目标值进行聚类在 Public 和 Private 排行榜上都表现非常好。
让我们将 CV 方案的选择视为一个光谱:
进行聚类的另一个原因是,这里的天数是分类的,但在现实生活中,时间是连续的。按天进行 GroupK CV 并不是那么令人满意。
第一张图片显示了通过 tsvd 目标(点)可视化的目标 kmeans 结果(颜色):

接下来,你可以看到