返回列表

#43 Explainable model almost without machine learning

534. Playground Series - Season 3, Episode 6 | playground-series-s3e6

开始: 2023-02-07 结束: 2023-02-20 定价与促销 数据算法赛
#43 几乎不使用机器学习的可解释模型

#43 几乎不使用机器学习的可解释模型

作者:AmbrosM (Grandmaster) | 排名:第 43 名

有时候,正确的方法论在这些竞赛中非常有用。当公共排行榜被那些跳过交叉验证并且仅在部分可用数据上训练的笔记本占据时,我决定比较不同的交叉验证策略。这些实验表明,具有重复 squareMeters 的样本应该与具有未见过的 squareMeters 的样本区别对待:

A. 当我使用 GroupKFold(groups=train.squareMeters) 进行交叉验证时,线性回归给出了最好的结果,优于所有基于树的模型:

水平条形图

B. 当我使用 KFold 进行交叉验证时,通过预测具有相同 squareMetersmade 以及有时相同 cityCode 的所有房屋的平均价格,我获得了最好的结果(这是我在数据中的准重复项中宣布的方法)。

我的最终模型包含了原始数据集,并且只使用了三个特征:squareMetersmadecityCode。它分三个阶段预测测试集价格:

  1. 如果训练数据中包含具有相同 squareMetersmadecityCode 的房屋,则预测这些房屋的平均价格。
  2. 如果训练数据中包含具有相同 squareMetersmade(无论 cityCode 如何)的房屋,则预测这些房屋的平均价格。
  3. 否则进行线性回归。
同比赛其他方案