返回列表

8th place - Trust the CV - 409 jump in places on the private ds :)

534. Playground Series - Season 3, Episode 6 | playground-series-s3e6

开始: 2023-02-07 结束: 2023-02-20 定价与促销 数据算法赛
第8名 - 相信CV - 私有榜单排名跃升409位 :)

第8名 - 相信CV - 私有榜单排名跃升409位 :)

作者: Kirderf (Grandmaster) | 发布时间: 2023-02-21

当你的提交在公共榜单上排名400-500位时,你需要相信本地交叉验证(CV)的结果来进行选择 :) 很高兴这次策略奏效了。

最佳单模型

最佳单模型是基于一些特征工程(FE)的工作,然后通过超参数优化(HPO)对XGB模型进行调优。

特征工程与异常值处理

在特征工程方面,我使用了原始数据作为比赛数据。首先手动移除了以下异常值:

train[train['made']!=10000]
train[train['floors']!=6000]
train[train['squareMeters']!=6071330]
train[train['garage']!=9017]
train[train['garage']!=2048]

然后,我应用了一些常见的特征工程方法,例如缩放、去除完全共线性、基数缩减、幂变换等。

自定义HPO流程

我使用了一个自定义创建的HPO FE(特征工程超参数优化)来寻找最适合数据的特征工程方案。在训练数据上进行分箱CV特征工程HPO是相关的,并将验证数据视为每个Fold即将到来的测试数据。完成这一步后,我使用最佳CV特征工程HPO结果以同样的方式对XGB进行调优。

集成模型

这是最佳的单模型。对于第二次提交,我还使用了包含不同模型、内核、版本等的集成方法。

就是这样!

同比赛其他方案