542. Playground Series - Season 3, Episode 11 | playground-series-s3e11
我的解决方案基于以下观察:
store_sqft 只有二十个唯一值,看起来像是一个数值特征,但实际上是分类特征。log1p(cost),并提交 expm1(pred)。第4点通过下图进行说明。store_sqft 的部分依赖图看起来不像典型的回归曲线,而像一个被误认为是连续变量的分类特征。这一观察表明,我们可以对 store_sqft 进行独热编码或目标编码。

模型动物园的多样性可以通过树状图进行分析。树状图表示模型的层次聚类,相似的模型最终会归入同一簇。我们可以轻松识别出四个簇:
unit_sales 或 store_sales 进行训练的模型
条形图展示了所有模型和集成的交叉验证分数及训练时间。最终提交结果是通过岭回归确定的权重对所有18个模型进行加权融合的结果。
