609. Playground Series - Season 4, Episode 5 | playground-series-s4e5
感谢Kaggle组织这场表格类竞技场比赛。我从参与这些比赛中学到了很多。我也从公开的笔记本和讨论中获得了宝贵的见解和建模方法。感谢大家的分享。
感谢 @mdoroch 组建团队,与你合作非常愉快,你的贡献对我们团队来说非常出色!
我们的解决方案共包含 56个模型(不包括autogluon)。这56个模型包含了来自公开笔记本的超参数,具体来自以下笔记本:
感谢 @trupologhelper、@suharkov、@ravaghi 和 @aspillai 的贡献!它们真的非常有帮助!
此外,所有其他模型(XGB、CATBoost、LGBM)都使用了不同的 grow_policy、tree_method、objective、sampling_method 等组合进行了微调。
我们最好的单模型得分约为 0.86933,这个提升不大,所以我认为集成是一个可行的方向。
使用的集成模型是 LinearRegression()。
为了进一步提高分数,我们创建了不同的特征/模型子集,并使用LinearRegression()确定权重,将它们添加到OOF预测的集合中。
最后,我们对所有特征进行了前向特征选择,包括所有工程化的子集特征。
在这个解决方案中,我们无法从Autogluon获得OOF预测,因为:
我很希望能有Autogluon的OOF预测。不过,我们还是将其与 @mdoroch 的最佳解决方案(0.86940)进行了混合,该解决方案包含了Autogluon。
再次感谢 @mfmfmf3 和 @meloncc 提供的高分Autogluon解决方案。
我们的最终集成权重是:
0.6 × 上述最佳解决方案 + 0.4 × @mdoroch 解决方案 = 0.86943(Private LB: 0.86902)
@mdoroch 的解决方案包含了他自己调优的XGB、LGBM、CATBoost和PyBoost集成,以及两个顶级的公开Autogluon模型的加权集成。
| 模型 | 权重 |
|---|---|
| ngb | -0.011743 |
| xgb_params8 | -0.058489 |
| lgb_params_bestcv | 0.064538 |
| lgb_params_serial | -0.112808 |
| lgb_et_params | -0.024884 |
| lgb_params4 | -0.032236 |
| lgb_dart | -0.064403 |
| lgb_params6_goss | 0.027780 |
| cat_params_t1 | -0.024164 |
| gb_params1 | -0.061639 |
| weighted_sum | 0.302751 |
| lgbm_oof_preds | 0.078312 |
| xgbrf_oof_preds | -0.027127 |
| model3 | -0.067031 |
| model5 | 0.056901 |
| p_xgb_ | -0.061300 |
| gamma_xgb | -0.073125 |
| weighted0 | 0.500579 |
| weighted2 | 0.122773 |
| weighted3 | 0.279514 |
| weighted1 | 0.187362 |
weighted0、weighted1等是特征子集的加权集成。
ngb(自然梯度提升)、Linear Tree Regression、Linear Forest Regression和Linear Boosting Regression是我使用的一些新模型,没有进行调优,整体贡献较小。
感谢大家!
```