47th Place - Site 2 Correction | 优胜方案

第47名 - Site 2 修正方案

作者: Chris Deotte (Grandmaster) | 比赛: Trends Assessment Prediction

目前这里最好的公开 Notebook 得分为 LB 0.1590。如果你分析其预测结果，会发现它低估了 Site 2 脑部扫描的 age 目标值，同时也低估了 domain2_var1 目标值。如果你调整这两个目标值，就可以将其 LB 分数提高到 LB 0.1585。这带来了 0.0005 的 LB 提升！

将脑部扫描分类为 Site 2

使用带有 L2 正则化的逻辑回归集成和 RAPIDS cuML 支持向量分类，你可以构建一个 AUC = 0.80 的 Site 2 分类器。下面是分类器的概率分布。有 3507 个测试样本的 Site 2 概率 prob = 0。有 800 个测试样本的概率为 0 < prob <= 0.5，508 个测试样本的概率为 0.5 < prob < 1，以及 1062 个样本的概率为 prob = 1（这 1062 个包括了已知的 510 个）。

Site 2 Classifier Probability Distribution

确定 Site 2 的目标偏差

接下来，如果你绘制目标值与 Site 2 概率的关系图，我们会看到随着 Site 2 脑部扫描概率的增加，目标值 age 和 domain2_var1 随之下降。如果我们假设 Site 1 和 Site 2 具有相同的 age 和 domain2_var1 均值，那么这就是基于站点特征漂移的统计显著性模型偏差。

（对于大小为 1000 的样本，目标值的样本均值标准差为 0.3 = OOF std / sqrt(1000)，因此我们的观察并非随机偶然。）

后处理修正 - LB 提升 0.00050！

从图中我们观察到，这个有偏差的模型需要为 prob = 1 的 Site 2 脑部扫描测试目标 age 加上 1.9，并且需要为 Site 2 脑部扫描测试目标 domain2_var1 加上 0.67。此外，我们可以根据图表调整 0.5 < prob < 1、0 < prob <= 0.5 和 prob = 0 的样本。

应用后处理 (PP) 的 1590 公开 Notebook

未应用后处理 (PP) 的 1590 公开 Notebook

私人排行榜

我曾希望私人排行榜能有更多的 Site 2 数据。那样这个技巧在私人 LB 上的提升幅度就会超过公开 LB，我也能在私人排行榜上提升名次 :-) 结果这个后处理 (PP) 仅让私人 LB 提升了 +0

47th Place - Site 2 Correction