8th place solution

第 8 名解决方案

作者: Mahdi Ravaghi
发布日期: 2024-11-01
竞赛: Playground Series S4E10

首先，祝贺 @hardyxu52、@omidbaghchehsaraei 和 @nadavcherry 获得前三名！很高兴看到你，@hardyxu52，回归 Playground 系列竞赛。希望在未来竞赛中见到更多你的身影。

数据预处理

我创建了五个流水线来训练我的每个基模型。这些流水线包含了对分类特征不同类型的预处理。在其中三个流水线中，我使用了原始数据集，但仅在训练期间。验证仅使用竞赛数据集完成。对于 CatBoost，我将所有特征视为分类特征，因为这显示在 CV 和公共 LB 分数上都有提升。

建模

本次竞赛中我使用了 CatBoost、XGBoost、LightGBM（三种不同的 boosting 类型：GBDT、DART、GOSS）、直方图梯度提升、梯度提升、AutoGluon 和神经网络。除了神经网络，我在上述五个流水线上训练了所有这些模型并保存了它们的 OOF 预测。

我还修改了 @omidbaghchehsaraei 在他的笔记本中使用的 CV 策略，使其与我的其他模型一致，并在我的最终解决方案中使用了他的一些模型。我解决方案中的神经网络灵感来自 @paddykb 的这个笔记本。

集成学习

在我的第 8 名解决方案中，我将收集到的所有 OOF 文件交给 AutoGluon，主要使用默认设置，让它处理集成。该模型取得了 0.970887 的 CV 分数，0.97329 的公共 LB 分数，以及 0.96900 的私有 LB 分数。遗憾的是，我在 Kaggle 上没有这个的笔记本，因为我必须在自己的电脑上完成。这个结果是在 24 小时的训练后获得的，Kaggle 笔记本不允许这样做。

不过，我在 Kaggle 上确实有一个笔记本，对应我的另一个提交，取得了与 AutoGluon 解决方案相同的私有 LB 分数，也能进入前 10 名。该解决方案包括使用岭回归和逻辑回归对 OOF 文件进行集成，随后使用加权平均方法进行另一轮集成。值得注意的是，前面提到的 AutoGluon 解决方案使用了 52 个模型的 OOF 文件，但在这种多级集成方法中，我发现减少 OOF 文件的数量提高了 CV 和公共 LB 分数。最初，我尝试使用 RFECV 来选择模型，但通过使用简单的暴力搜索方法识别最佳集成模型，我取得了更好的结果。最后，我在岭回归和逻辑回归中都使用了 19 个模型（尽管两者使用的 19 个模型并不相同）。

结果

下图显示了我所有基模型以及集成模型的 10 折 CV 分数。请注意，图中未显示 AutoGluon 分数，但如前所述，它取得的 10 折 CV 分数为 0.970887，这是我在本次竞赛中取得的最高 CV 分数。

第 8 名解决方案

数据预处理

建模

集成学习

结果

同比赛其他方案