651. Playground Series - Season 5, Episode 5 | playground-series-s5e5
大家好!
这是我第一次真正尝试 Kaggle 竞赛,我非常感激这里支持性的社区。我在这里分享我的解决方案和学习心得,希望能帮助到其他人,就像你们的许多帖子帮助了我一样!
我探索了各种模型(如 CatBoost、XGBoost、随机森林、额外树、多层感知机、岭回归、贝叶斯回归等),并尝试了不同的特征,例如:
除了探索不同的特征集外,我还尝试了不同类型的集成,如 CatBoost 和 XGBoost 模型的简单加权平均、岭回归集成等,并在过程中加入了一些创意。最终,我实施了一个 爬山集成(hill climbing ensemble),事实证明这是我最有效的策略。
在从 41 个不同模型 生成折外(OOF)预测后(特征集如前所述),我将它们传递给爬山算法,该算法为最终预测选择了 16 个模型:
这给了我最好的最终 CV 分数。
由于一些内核问题,我未能 properly 调优 CatBoost 和 XGBoost 模型。我想,基于我看到的一些讨论,微调这些模型并使用 仅限正数的集成权重(positive-only ensemble weights) 可能会提高我的最终分数。
事后看来,我应该更信任我的 CV 分数而不是公共排行榜。我有几个提交本可能排在 20-25 名 之间,但因为排行榜波动而没有选择它们。
非常感谢 @cdeotte 耐心地回答我的问题并分享如此宝贵的见解,它们在这次竞赛期间帮助很大!
作为一个完全的新手,我很高兴能参与其中。这个社区很棒,我发布的每个问题都得到了友善和有帮助的回答。通过这次竞赛和讨论,我学到了很多。
期待参与更多!