No Conv Net (Private: 4th, Public: 2nd)

无卷积网络 (Private: 第4名, Public: 第2名)

作者: Jan Bre, Marius K
比赛: Trends Assessment Prediction

一些想法

我们将尽可能让这篇讨论帖内容详尽，并回答评论区中的每一个问题。由于篇幅限制，我们不得不缩短部分内容。

非常有趣的是，与我们的方法相比，3D CNN 似乎在 Private LB（私有排行榜）上表现更好。我们原以为它们会过拟合得更严重。看来 Private LB 的数据分布与 Train（训练集）的分布更接近，而不是 Public LB。

致谢

首先感谢主办方举办这场精彩的比赛，并向 @churkinnikita 和 @simakov 致以巨大的敬意，祝贺他们实至名归的胜利。当他们超越我们的 Public 第1名时，对我们来说是一个非常难忘的时刻。

感谢 @aerdem4 提供的精彩 kernels，并向所有参加本次比赛的选手致敬。

关于我们

Marius 和我是实验室伙伴。我们在神经生理学系一起撰写了医学博士论文。这就是为什么我们之前处理过神经影像数据（幸运的是这不是 Zillow 房价预测比赛）。

方法

我们希望创建一种全面的方法来预测 fMRI 图像，以便能够直接评估哪些部分对模型的预测贡献最大，而不是针对 Site1 和 Site2 进行微调，而是为两者构建一个统一的模型。

大脑的关键在于连接性。通常 fMRI 图像是 4 维的，其中 1 个轴是时间。但这里的数据是 ICA 成分——即不同的大脑网络。Marius 提出了一个想法，将这个轴视为时间轴，并使用神经影像学中用于时间特征提取的相同工具来处理 ICA 成分。关键词是“脑区划分”。脑区划分是大脑的图谱，它们利用功能和/或解剖特征将大脑细分为更小的网络。然后可以计算图谱中每个成分的 fMRI 数据点的平均值。从而我们将形状从 53*63*52*53 缩减为脑区划分成分数量（取决于图谱，通常几百个）x ICA 成分数量。在下文中，我们将此数组称为 PICA。这减少了受试者之间和站点之间的差异。

我们使用了多个图谱来使模型多样化，以便更好地泛化（我们使用了多达 10 种不同的图谱）：

Basc:

Schaefer:

我们甚至使用无监督学习方法（如 KMeans 和 Ward）计算了我们自己的脑区划分。我们将在这里链接一些论文，因为描述这些内容超出了本文的范围：

Bertrand Thirion, Gael Varoquaux, Elvis Dohmatob, Jean-Baptiste Poline. Which fMRI clustering gives good brain parcellations ? Frontiers in Neuroscience, 2014.

Vincent Michel, Alexandre Gramfort, Gael Varoquaux, Evelyn Eger, Christine Keribin, Bertrand Thirion. A supervised clustering approach for fMRI-based inference of brain states.. Pattern Recognition, Elsevier, 2011.

Kmeans

Ward

我们在讨论区