返回列表

11th place solution (14th with pure SVR)

388. TReNDS Neuroimaging | trends-assessment-prediction

开始: 2020-04-23 结束: 2020-06-29 医学影像分析 数据算法赛
第11名解决方案 (纯SVR排名第14)

第11名解决方案 (纯SVR排名第14)

作者:Michael Notter | 排名:第11名 | 发布时间:2020-07-07

再次感谢主办方举办这场精彩的比赛,也感谢所有竞争对手带来的巨大挑战。作为我的第一次Kaggle比赛,我学到了很多东西,努力跟上顶尖分数的过程既令人兴奋(同时也非常有压力)!

我终于能够将我方法的(几乎)整个代码库整理出来了。以下是我的方法运作原理以及一些独特之处:

  1. TReNDS:目标变量探索:在仔细观察目标变量后,我决定进行以下转换。
    • 首先,使用 RobustScaler 对目标进行缩放。
    • 其次,将目标2到5通过1.5次幂转换为更接近正态分布的形式。
    • 第三,我决定将所有预测值限制在目标集的唯一值范围内。特别是对于 age(年龄),这一做法帮助很大。
  2. TReNDS:特征探索与工程:关于特征数据集,我移除了约1%的极端异常值(即具有非常奇怪特征值的受试者),并创建了两个额外的特征数据集:
    • 受试者内部特征:通过计算受试者内所有53个MRI图谱之间的相关性,我创建了1,378个新特征,希望能代表受试者内部的特征。
    • 受试者之间特征:通过计算53个MRI图谱中每一个与对应平均总体图谱之间的相关性,我创建了53个新特征,希望能代表受试者之间的特征。
  3. TReNDS:数据缩放与建模:跟随Kaggle讨论区/Notebook的指引,我研究了一种特征数据集独特的缩放方法。然而,我并没有仅仅用500这个因子来缩放FNC数据集,而是为我的4个特征数据集分别微调了精确的缩放因子。此外,这种微调是针对5个目标分别进行的,也是针对我探索的每个模型(即Ridge和带RBF核的SVR)分别进行的。

这三个Notebook让我在排行榜上的位置进入了前20名。直到最后5天,我发现了 TReNDS Multi-Layer Model 这个Notebook,它展示了一种堆叠方法。通过改编这段代码并针对我单独缩放的数据集进行优化,我得以提升分数,最终达到了我的最终排名。

作为一个额外的尝试,我还试图利用 domain2_var1domain2_var2 之间的特定关系(如我在第一个Notebook中所述),并希望多目标预测方法能有所帮助。为此,我实现了一个具有两个输出和多个损失函数的密集神经网络。不幸的是,这种方法没有取得成果。尽管如此,相应的Notebook可以在这里找到:Multi-loss neural network for domain2 targets

再次感谢这场精彩的比赛。

祝好,
Michael

同比赛其他方案