返回列表

#2nd Place Solution(Team Peaky Blenders): Blends Of Blends.

609. Playground Series - Season 4, Episode 5 | playground-series-s4e5

开始: 2024-05-01 结束: 2024-05-31 公共安全 数据算法赛
```html #2nd Place Solution(Team Peaky Blenders): Blends Of Blends

#2nd Place Solution(Team Peaky Blenders): 混合的混合

作者:lash_fire (Expert)

排名:第2名

发布日期:2024-06-02

感谢Kaggle组织这场表格类竞技场比赛。我从参与这些比赛中学到了很多。我也从公开的笔记本和讨论中获得了宝贵的见解和建模方法。感谢大家的分享。

感谢 @mdoroch 组建团队,与你合作非常愉快,你的贡献对我们团队来说非常出色!

我们的解决方案

特征工程

模型

我们的解决方案共包含 56个模型(不包括autogluon)。这56个模型包含了来自公开笔记本的超参数,具体来自以下笔记本:

感谢 @trupologhelper、@suharkov、@ravaghi 和 @aspillai 的贡献!它们真的非常有帮助!

此外,所有其他模型(XGB、CATBoost、LGBM)都使用了不同的 grow_policytree_methodobjectivesampling_method 等组合进行了微调。

我们最好的单模型得分约为 0.86933,这个提升不大,所以我认为集成是一个可行的方向。

集成方法

使用的集成模型是 LinearRegression()

为了进一步提高分数,我们创建了不同的特征/模型子集,并使用LinearRegression()确定权重,将它们添加到OOF预测的集合中。

最后,我们对所有特征进行了前向特征选择,包括所有工程化的子集特征。

在这个解决方案中,我们无法从Autogluon获得OOF预测,因为:

  • 时间不够,无法获得OOF预测
  • 加载Autogluon模型时遇到了版本文件命名错误

我很希望能有Autogluon的OOF预测。不过,我们还是将其与 @mdoroch 的最佳解决方案(0.86940)进行了混合,该解决方案包含了Autogluon。

再次感谢 @mfmfmf3@meloncc 提供的高分Autogluon解决方案。

我们的最终集成权重是:

0.6 × 上述最佳解决方案 + 0.4 × @mdoroch 解决方案 = 0.86943(Private LB: 0.86902)

@mdoroch 的解决方案包含了他自己调优的XGB、LGBM、CATBoost和PyBoost集成,以及两个顶级的公开Autogluon模型的加权集成。

模型 权重
ngb-0.011743
xgb_params8-0.058489
lgb_params_bestcv0.064538
lgb_params_serial-0.112808
lgb_et_params-0.024884
lgb_params4-0.032236
lgb_dart-0.064403
lgb_params6_goss0.027780
cat_params_t1-0.024164
gb_params1-0.061639
weighted_sum0.302751
lgbm_oof_preds0.078312
xgbrf_oof_preds-0.027127
model3-0.067031
model50.056901
p_xgb_-0.061300
gamma_xgb-0.073125
weighted00.500579
weighted20.122773
weighted30.279514
weighted10.187362

weighted0、weighted1等是特征子集的加权集成。

ngb(自然梯度提升)、Linear Tree Regression、Linear Forest Regression和Linear Boosting Regression是我使用的一些新模型,没有进行调优,整体贡献较小。

Linear Tree

感谢大家!

```
同比赛其他方案