大家好,
感谢 Kaggle 举办这次比赛,恭喜所有人,感谢大家在此期间分享了许多有用的见解。
我正在休假几天,用手机写下这条消息。
我的解决方案是 4 个元学习器的 LogisticRegression(逻辑回归):每个元学习器(下方粗体部分)是 GBM 的堆叠:

箱线图展示了使用不同随机种子获得的各种 OOF(袋外)预测的 4 次重复结果:我想要稳健的结果。
在这个逻辑回归之前,我训练了超过 30 个 GBM,我尝试了我能尝试的所有 XGBoost、CatBoost 和 LightGBM 的分类超参数,我从这些个人实验中学到了很多。
我保留了几列训练数据集的分类和数值特征(特别是 person_income)。我没有填补缺失值,没有进行特征工程,只保留原始数据集用于训练(不用于验证)。我使用 optuna 来拟合每个 GBM 的超参数。
这是我的 最终提交代码。
祝接下来的比赛好运,玩得开心!