第 38 名 - 41 个模型、自定义特征和爬山算法

大家好！

这是我第一次真正尝试 Kaggle 竞赛，我非常感激这里支持性的社区。我在这里分享我的解决方案和学习心得，希望能帮助到其他人，就像你们的许多帖子帮助了我一样！

方法概述

我探索了各种模型（如 CatBoost、XGBoost、随机森林、额外树、多层感知机、岭回归、贝叶斯回归等），并尝试了不同的特征，例如：

除了探索不同的特征集外，我还尝试了不同类型的集成，如 CatBoost 和 XGBoost 模型的简单加权平均、岭回归集成等，并在过程中加入了一些创意。最终，我实施了一个 爬山集成（hill climbing ensemble），事实证明这是我最有效的策略。

在从 41 个不同模型 生成折外（OOF）预测后（特征集如前所述），我将它们传递给爬山算法，该算法为最终预测选择了 16 个模型：

这给了我最好的最终 CV 分数。

由于一些内核问题，我未能 properly 调优 CatBoost 和 XGBoost 模型。我想，基于我看到的一些讨论，微调这些模型并使用 仅限正数的集成权重（positive-only ensemble weights） 可能会提高我的最终分数。
事后看来，我应该更信任我的 CV 分数而不是公共排行榜。我有几个提交本可能排在 20-25 名 之间，但因为排行榜波动而没有选择它们。

非常感谢 @cdeotte 耐心地回答我的问题并分享如此宝贵的见解，它们在这次竞赛期间帮助很大！

作为一个完全的新手，我很高兴能参与其中。这个社区很棒，我发布的每个问题都得到了友善和有帮助的回答。通过这次竞赛和讨论，我学到了很多。

期待参与更多！