534. Playground Series - Season 3, Episode 6 | playground-series-s3e6
当你的提交在公共榜单上排名400-500位时,你需要相信本地交叉验证(CV)的结果来进行选择 :) 很高兴这次策略奏效了。
最佳单模型是基于一些特征工程(FE)的工作,然后通过超参数优化(HPO)对XGB模型进行调优。
在特征工程方面,我使用了原始数据作为比赛数据。首先手动移除了以下异常值:
train[train['made']!=10000]
train[train['floors']!=6000]
train[train['squareMeters']!=6071330]
train[train['garage']!=9017]
train[train['garage']!=2048]
然后,我应用了一些常见的特征工程方法,例如缩放、去除完全共线性、基数缩减、幂变换等。
我使用了一个自定义创建的HPO FE(特征工程超参数优化)来寻找最适合数据的特征工程方案。在训练数据上进行分箱CV特征工程HPO是相关的,并将验证数据视为每个Fold即将到来的测试数据。完成这一步后,我使用最佳CV特征工程HPO结果以同样的方式对XGB进行调优。
这是最佳的单模型。对于第二次提交,我还使用了包含不同模型、内核、版本等的集成方法。
就是这样!