返回列表

4th Place Solution: Hill climbing through the noise

609. Playground Series - Season 4, Episode 5 | playground-series-s4e5

开始: 2024-05-01 结束: 2024-05-31 公共安全 数据算法赛
第4名方案:穿越噪声的爬山算法
作者:Matt OP,排名:第4名

第4名方案:穿越噪声的爬山算法

大家好,感谢又一场激烈的 Playground Series 竞赛!在展示我的方案之前,我想建议赛期两周可能更为合适。最后的冲刺阶段就像是努力挤出最后几滴优化空间。现在进入正题:

本次竞赛的关键策略是尽可能多地混合模型。之所以这样做,是因为我们实际上是在预测噪声。

Screenshot 2024-05-31 165018 Screenshot 2024-05-31 201823

爬山算法(HillClimbers)

我尝试了多种模型混合方法,包括 Lasso 和 Ridge 回归,但最终使用爬山算法(Hill Climbing)获得了最佳效果。我使用了我的 Python 包 hillclimbers 来确定最优权重。

特征工程

我使用了 3 套特征来训练模型,分别是 FE2 和 FE3(在选权重的柱状图中可见)。这些特征集包括以下几类(不同变体):

  • 统计特征:均值、中位数、众数、最大值、最小值、标准差、偏度、峰度、分位数等。
  • 每行唯一值计数特征,最初在 [AutoML Grand Prix] 第1名方案 中提出。

超参数调优

我使用了多组超参数,部分手动调优,部分使用 Optuna 优化。例如,我的 DecisionTreeRegressor 集成使用了多组超参数,并将得到的预测结果再次混合。

同比赛其他方案