35th Place Solution- Magic PP - Site 2 correction | 优胜方案

第35名解决方案 - Magic PP - Site 2 修正

作者: Kumar Shubham (Grandmaster) | 比赛排名: 第35名 | 发布时间: 2020-06-30

第一部分

首先，祝贺我的队友 @prateekagnihotri 获得他的第一枚银牌，非常感谢他提出了出色的堆叠模型。祝贺所有在 Private LB（私有排行榜）上取得好成绩的团队。此外，还要感谢 @david1013 提供了用于最终融合的高分 Public Kernel（公开内核）。最棒的是我们在最后10天内完成了所有这些工作，而且仅使用了表格数据。我们本想探索 fMRI，但由于时间有限，没能进行。

1. 公开 LB 提升 0.0003 - 已知 Site 2 样本的预处理

我们尝试对 Site 1 和 Site 2 的 IC 和 fnc 特征进行高斯拟合。标准差几乎相同，因此看起来我们可以通过向 Site 2 特征添加均值偏移来近似 Site 1 特征。

Mean Shift = Mean(Site 1 samples) - Mean(Site 2 samples)
Generated Site 1 sample = Site 2 sample + Mean Shift

然后使用生成的 Site 1 样本对已知的 Site 2 样本进行预测。

2. 计算 Site 2 样本的数量

我们简单地求解所有显示出显著偏移的特征的方程，并绘制从所有特征获得的 x 值的直方图：

Mean(Unknown Samples) = x * Mean(Site1 samples) + (1-x) * Mean(Site2 samples)
这里，x 是未知数据集中 Site 1 样本的百分比。

很明显，20-40% 的数据集属于 Site 2。

3. 公开 LB 提升 0.0002 - 未知 Site 2 样本的后处理

我们的站点分类器是以下模型的集成：

基于所有特征的 LightGBM
基于所有特征及生成样本的堆叠集成。额外的 Site 2 样本是通过均值偏移从已知的 Site 1 生成的。
基于前30个特征的贝叶斯模型。

由于类别不平衡，各个概率处于不同的尺度，特别是模型1。因此，集成是通过根据样本的概率对其进行排名，然后取所有排名的加权平均值来完成的。

排名前500的样本被分配概率1。接下来的500个被分配0.9。再接下来的0.75。

类似地，在底部，样本被分配概率0、0.1、0.25。

其余所有样本被分配概率0.5。

在私有集上，最后一个实际上比融合效果更好，但我们没有选择那个。

有了概率后，最终预测计算如下：

Prediction = p1 * site1_pred + p2 * site2_pred

其中 site1_pred 是模型的实际预测，而 site2_pred 是假设样本来自 Site 2 所做的预测，其完成方式类似于 (1)。

4. 模型

融合集成包括：

带有后处理 (PP) 的 Public LB 模型
3层堆叠 (43>7>1)
3层堆叠 (29>5>1)

堆叠 2 和 3 中使用的模型：Ridge, Bayesian Ridge, Bagging Regressor, SVR, NuSVR, Kernel Ridge, Neural Networks, Lasso, E-Net, GLM

这三个模型在公开 LB 上的得分均为 0.1585，融合集成得分为 0.1584。

我是写详细解决方案的新手。如有任何错误，请见谅！！

关于堆叠模型的更多细节和一些有效的技巧将很快发布。

包含代码的完整详细解决方案将很快上传