388. TReNDS Neuroimaging | trends-assessment-prediction
首先,祝贺我的队友 @prateekagnihotri 获得他的第一枚银牌,非常感谢他提出了出色的堆叠模型。祝贺所有在 Private LB(私有排行榜)上取得好成绩的团队。此外,还要感谢 @david1013 提供了用于最终融合的高分 Public Kernel(公开内核)。最棒的是我们在最后10天内完成了所有这些工作,而且仅使用了表格数据。我们本想探索 fMRI,但由于时间有限,没能进行。
我们尝试对 Site 1 和 Site 2 的 IC 和 fnc 特征进行高斯拟合。标准差几乎相同,因此看起来我们可以通过向 Site 2 特征添加均值偏移来近似 Site 1 特征。
Mean Shift = Mean(Site 1 samples) - Mean(Site 2 samples)
Generated Site 1 sample = Site 2 sample + Mean Shift
然后使用生成的 Site 1 样本对已知的 Site 2 样本进行预测。
我们简单地求解所有显示出显著偏移的特征的方程,并绘制从所有特征获得的 x 值的直方图:
Mean(Unknown Samples) = x * Mean(Site1 samples) + (1-x) * Mean(Site2 samples)
这里,x 是未知数据集中 Site 1 样本的百分比。
很明显,20-40% 的数据集属于 Site 2。
我们的站点分类器是以下模型的集成:
由于类别不平衡,各个概率处于不同的尺度,特别是模型1。因此,集成是通过根据样本的概率对其进行排名,然后取所有排名的加权平均值来完成的。
排名前500的样本被分配概率1。接下来的500个被分配0.9。再接下来的0.75。
类似地,在底部,样本被分配概率0、0.1、0.25。
其余所有样本被分配概率0.5。
在私有集上,最后一个实际上比融合效果更好,但我们没有选择那个。
有了概率后,最终预测计算如下:
Prediction = p1 * site1_pred + p2 * site2_pred
其中 site1_pred 是模型的实际预测,而 site2_pred 是假设样本来自 Site 2 所做的预测,其完成方式类似于 (1)。
融合集成包括:
堆叠 2 和 3 中使用的模型:Ridge, Bayesian Ridge, Bagging Regressor, SVR, NuSVR, Kernel Ridge, Neural Networks, Lasso, E-Net, GLM
这三个模型在公开 LB 上的得分均为 0.1585,融合集成得分为 0.1584。
我是写详细解决方案的新手。如有任何错误,请见谅!!
关于堆叠模型的更多细节和一些有效的技巧将很快发布。
包含代码的完整详细解决方案将很快上传