我的解决方案分为7个主要步骤:
(代码版本10)
- 使用pandas的interpolate实例进行线性插值填补缺失数据。
- 使用随机森林分类器通过gini-importance找出数据集中最重要的特征。
- 使用贝叶斯优化来寻找XGBoost分类器的最优参数。
- 重复步骤3多次,收集XGBoost分类器的多个最优参数。
- 使用最优参数构建XGBoost分类器集成。
- 使用GridSearchCV再次微调XGBoost分类器(因为贝叶斯优化只是参数估计)。
- 使用投票分类器(每个XGBoost概率的平均值)来分类测试集。