返回列表

35th Place Solution- Magic PP - Site 2 correction

388. TReNDS Neuroimaging | trends-assessment-prediction

开始: 2020-04-23 结束: 2020-06-29 医学影像分析 数据算法赛
第35名解决方案 - Magic PP - Site 2 修正

第35名解决方案 - Magic PP - Site 2 修正

作者: Kumar Shubham (Grandmaster) | 比赛排名: 第35名 | 发布时间: 2020-06-30

第一部分

首先,祝贺我的队友 @prateekagnihotri 获得他的第一枚银牌,非常感谢他提出了出色的堆叠模型。祝贺所有在 Private LB(私有排行榜)上取得好成绩的团队。此外,还要感谢 @david1013 提供了用于最终融合的高分 Public Kernel(公开内核)。最棒的是我们在最后10天内完成了所有这些工作,而且仅使用了表格数据。我们本想探索 fMRI,但由于时间有限,没能进行。

1. 公开 LB 提升 0.0003 - 已知 Site 2 样本的预处理

我们尝试对 Site 1 和 Site 2 的 IC 和 fnc 特征进行高斯拟合。标准差几乎相同,因此看起来我们可以通过向 Site 2 特征添加均值偏移来近似 Site 1 特征。

Mean Shift = Mean(Site 1 samples) - Mean(Site 2 samples)
Generated Site 1 sample = Site 2 sample + Mean Shift

然后使用生成的 Site 1 样本对已知的 Site 2 样本进行预测。

2. 计算 Site 2 样本的数量

我们简单地求解所有显示出显著偏移的特征的方程,并绘制从所有特征获得的 x 值的直方图:

Mean(Unknown Samples) = x * Mean(Site1 samples) + (1-x) * Mean(Site2 samples)
这里,x 是未知数据集中 Site 1 样本的百分比。

很明显,20-40% 的数据集属于 Site 2。

3. 公开 LB 提升 0.0002 - 未知 Site 2 样本的后处理

我们的站点分类器是以下模型的集成:

  • 基于所有特征的 LightGBM
  • 基于所有特征及生成样本的堆叠集成。额外的 Site 2 样本是通过均值偏移从已知的 Site 1 生成的。
  • 基于前30个特征的贝叶斯模型。

由于类别不平衡,各个概率处于不同的尺度,特别是模型1。因此,集成是通过根据样本的概率对其进行排名,然后取所有排名的加权平均值来完成的。

排名前500的样本被分配概率1。接下来的500个被分配0.9。再接下来的0.75。

类似地,在底部,样本被分配概率0、0.1、0.25。

其余所有样本被分配概率0.5。

在私有集上,最后一个实际上比融合效果更好,但我们没有选择那个。

有了概率后,最终预测计算如下:

Prediction = p1 * site1_pred + p2 * site2_pred

其中 site1_pred 是模型的实际预测,而 site2_pred 是假设样本来自 Site 2 所做的预测,其完成方式类似于 (1)。

4. 模型

融合集成包括:

  1. 带有后处理 (PP) 的 Public LB 模型
  2. 3层堆叠 (43>7>1)
  3. 3层堆叠 (29>5>1)

堆叠 2 和 3 中使用的模型:Ridge, Bayesian Ridge, Bagging Regressor, SVR, NuSVR, Kernel Ridge, Neural Networks, Lasso, E-Net, GLM

这三个模型在公开 LB 上的得分均为 0.1585,融合集成得分为 0.1584

我是写详细解决方案的新手。如有任何错误,请见谅!!

关于堆叠模型的更多细节和一些有效的技巧将很快发布。

包含代码的完整详细解决方案将很快上传

同比赛其他方案