4th Place Solution: Hill climbing through the noise

609. Playground Series - Season 4, Episode 5 | playground-series-s4e5

开始: 2024-05-01 结束: 2024-05-31 公共安全数据算法赛

第4名方案：穿越噪声的爬山算法

作者：Matt OP，排名：第4名

第4名方案：穿越噪声的爬山算法

大家好，感谢又一场激烈的 Playground Series 竞赛！在展示我的方案之前，我想建议赛期两周可能更为合适。最后的冲刺阶段就像是努力挤出最后几滴优化空间。现在进入正题：

本次竞赛的关键策略是尽可能多地混合模型。之所以这样做，是因为我们实际上是在预测噪声。

Screenshot 2024-05-31 165018

Screenshot 2024-05-31 201823

爬山算法（HillClimbers）

我尝试了多种模型混合方法，包括 Lasso 和 Ridge 回归，但最终使用爬山算法（Hill Climbing）获得了最佳效果。我使用了我的 Python 包 hillclimbers 来确定最优权重。

特征工程

我使用了 3 套特征来训练模型，分别是 FE2 和 FE3（在选权重的柱状图中可见）。这些特征集包括以下几类（不同变体）：

统计特征：均值、中位数、众数、最大值、最小值、标准差、偏度、峰度、分位数等。
每行唯一值计数特征，最初在 [AutoML Grand Prix] 第1名方案中提出。

超参数调优

我使用了多组超参数，部分手动调优，部分使用 Optuna 优化。例如，我的 DecisionTreeRegressor 集成使用了多组超参数，并将得到的预测结果再次混合。

Notebook 链接 查看完整代码 GitHub 仓库 HillClimbers 包源码

同比赛其他方案

#1st place solution

#2nd Place Solution(Team Peaky Blenders): Blends Of Blends.