8th place - Trust the CV - 409 jump in places on the private ds :)

第8名 - 相信CV - 私有榜单排名跃升409位 :)

作者： Kirderf (Grandmaster) | 发布时间： 2023-02-21

当你的提交在公共榜单上排名400-500位时，你需要相信本地交叉验证（CV）的结果来进行选择 :) 很高兴这次策略奏效了。

最佳单模型

最佳单模型是基于一些特征工程（FE）的工作，然后通过超参数优化（HPO）对XGB模型进行调优。

特征工程与异常值处理

在特征工程方面，我使用了原始数据作为比赛数据。首先手动移除了以下异常值：

train[train['made']!=10000]
train[train['floors']!=6000]
train[train['squareMeters']!=6071330]
train[train['garage']!=9017]
train[train['garage']!=2048]

然后，我应用了一些常见的特征工程方法，例如缩放、去除完全共线性、基数缩减、幂变换等。

自定义HPO流程

我使用了一个自定义创建的HPO FE（特征工程超参数优化）来寻找最适合数据的特征工程方案。在训练数据上进行分箱CV特征工程HPO是相关的，并将验证数据视为每个Fold即将到来的测试数据。完成这一步后，我使用最佳CV特征工程HPO结果以同样的方式对XGB进行调优。

集成模型

这是最佳的单模型。对于第二次提交，我还使用了包含不同模型、内核、版本等的集成方法。