388. TReNDS Neuroimaging | trends-assessment-prediction
目前这里最好的公开 Notebook 得分为 LB 0.1590。如果你分析其预测结果,会发现它低估了 Site 2 脑部扫描的 age 目标值,同时也低估了 domain2_var1 目标值。如果你调整这两个目标值,就可以将其 LB 分数提高到 LB 0.1585。这带来了 0.0005 的 LB 提升!
使用带有 L2 正则化的逻辑回归集成和 RAPIDS cuML 支持向量分类,你可以构建一个 AUC = 0.80 的 Site 2 分类器。下面是分类器的概率分布。有 3507 个测试样本的 Site 2 概率 prob = 0。有 800 个测试样本的概率为 0 < prob <= 0.5,508 个测试样本的概率为 0.5 < prob < 1,以及 1062 个样本的概率为 prob = 1(这 1062 个包括了已知的 510 个)。
接下来,如果你绘制目标值与 Site 2 概率的关系图,我们会看到随着 Site 2 脑部扫描概率的增加,目标值 age 和 domain2_var1 随之下降。如果我们假设 Site 1 和 Site 2 具有相同的 age 和 domain2_var1 均值,那么这就是基于站点特征漂移的统计显著性模型偏差。
(对于大小为 1000 的样本,目标值的样本均值标准差为 0.3 = OOF std / sqrt(1000),因此我们的观察并非随机偶然。)
从图中我们观察到,这个有偏差的模型需要为 prob = 1 的 Site 2 脑部扫描测试目标 age 加上 1.9,并且需要为 Site 2 脑部扫描测试目标 domain2_var1 加上 0.67。此外,我们可以根据图表调整 0.5 < prob < 1、0 < prob <= 0.5 和 prob = 0 的样本。
我曾希望私人排行榜能有更多的 Site 2 数据。那样这个技巧在私人 LB 上的提升幅度就会超过公开 LB,我也能在私人排行榜上提升名次 :-) 结果这个后处理 (PP) 仅让私人 LB 提升了 +0