作者：Matt OP（Kaggle Grandmaster）
排名：第4名
发布时间：2023年5月16日

第4名解决方案：介绍hillclimbers

大家好，非常感谢你们参加这场有趣的Playground系列比赛！自从今年1月PS第3赛季开始以来，我学到了很多知识，也享受了参与这些比赛的快乐时光。

我要感谢很多人帮助我获得第4名（请为所有这些notebook点赞！）：

@paddykb 在比赛早期就用他优秀的notebook PS s3e14 -FLAML BFI Be-bop-a-blueberry-do-dah 点燃了公开排行榜，之后他又通过添加后处理技巧再次提升了成绩（后面会详细介绍）。
@adaubas 也通过另一个出色的notebook PS s3e14 -Stacking - LeastAbsoluteDeviation Reg 和讨论帖在公开排行榜上获得337分的一些技巧点燃了公开排行榜。该帖子详细说明了`fruitset`、`seeds`和`fruitmass`与目标变量高度相关且呈线性关系，以及如何利用PCA和PLSRegression进行特征工程并附带了代码。
@francescoliveras 分享了公开排行榜上得分最高的notebook 336.695 🌟PS-S3-E14🌟 | 📊EDA | Model [EN/ES]，该notebook使用了@paddykb的FLAML AutoML设置和@adaubas的LADRegression混合策略。
@tetsutani 分享了一个很棒的notebook PS3E14 EDA| Various models & Ensemble baseline，其中包含优秀的可视化，作者使用了多种不同模型（其中一些模型使用不同超参数运行多次）并通过OptunaWeights进行混合，创建了一个高分集成。
@chayaphatnicrothanon 分享了他不错的notebook (LB Score: 338.63) EDA+CatBoost+LightGBM+KFolds，其中包含一些非常酷的基于评估的可视化。
@zhukovoleksiy 分享了另一个优秀的notebook [PS S3E14] Simple EDA + Ensemble，使用了与@tetsutani类似的策略。

后处理技巧

上述所有notebook的共同点是什么？它们（以及其他许多人）都使用了后处理技巧。然而，它们的使用方式并不完全相同。有些人在交叉验证拆分中使用它，有些人在拆分预测混合后使用它。我个人发现在交叉验证拆分中使用它以及在拆分预测混合后使用它都很有益。

什么是hillclimbers？

我之所以感谢上述所有notebook，是因为这些正是我最终集成中使用的所有模型！我这样做也是为了尝试我的项目hillclimbers，这是一个使用爬山算法迭代混合机器学习模型预测的Python模块。特别感谢@cdeotte 最初解释和展示爬山算法的帖子第3名解决方案以及 @samuelcortinhas 的精彩notebook 📈 PS S3E3 - Hill Climbing like a GM。没有你们，我不可能创造出hillclimbers！

为什么创建hillclimbers？

我创建hillclimbers是因为在参加几次比赛后，我很快意识到拥有多样化模型的重要性。使用爬山算法时，交叉验证分数最好的模型并不总是被优先选择，相反，爬山算法会选择多样化的模型。我开始研究@samuelcortinhas的notebook代码，并在过去几届Playground比赛中尝试使用它。我发现自己在不同比赛中经常修改代码，因此希望创建一个更具适应性的工具。以下是我实现的一些功能，使得爬山算法几乎可以用于任何表格问题：

!pip install hillclimbers
from hillclimbers import climb_hill, partial

def climb_hill(
    train=None, 
    oof_pred_df=None, 
    test_pred_df=None, 
    target=None, 
    objective=None, 
    eval_metric=None,
    negative_weights=False, 
    precision=0.01, 
    plot_hill=True, 
    plot_hist=False
) -> np.ndarray: # 返回爬山算法产生的测试预测

target：指定要预测的目标列
objective：根据使用的评估指标设置为"maximize"或"minimize"
eval_metric：定义评估指标
negative_weights：是否要使用负权重？
precision：指定权重数组中的步长

更多详细说明请访问 GitHub仓库。

结果

现在让我展示hillclimbers如何工作：

以下是爬山算法的可视化图表：

您可以在这个notebook中找到此解决方案的完整代码

4th Place Solution: Introducing hillclimbers

第4名解决方案：介绍hillclimbers

后处理技巧

什么是hillclimbers？

为什么创建hillclimbers？

结果

相关资源

同比赛其他方案