返回列表

Public 1125 - > Private 48 solution

559. GoDaddy - Microbusiness Density Forecasting | godaddy-microbusiness-density-forecasting

开始: 2022-12-16 结束: 2023-06-16 销量与需求预测 数据算法赛
Public 1125 → Private 48 解决方案

Public 1125 → Private 48 解决方案

作者:Yue Sun | 发布时间:2023-06-18 | 最终排名:48

以下是对预测有帮助的方法:

异常值平滑

异常值平滑示意图

系数调整 + 求近似值

active:该县微型企业的原始数量。预测目标为人口密度 = active / 人口。人口统计数据每年一月发生变化。竞赛要求预测 2023 年的人口密度,而人口密度的分母(人口)已发生变化。基于现有数据,使用公式(2023 年预测值 × 2020 年人口) ÷ 2021 年人口估算人口趋势变化系数,并用该系数修正预测值。由于分子 active 本为整数,预测值乘以人口后通常为连续值(如 1.3),而实际值可能为整数 1,因此取整有助于提高精度。系数修正后的预测值应乘以 2021 年人口,取整后再除以 2021 年人口,进行进一步修正。

最优 shift time = 12

最优滞后时间

创建过去 12 个月的滞后特征。若使用 24 或 6 个月,效果会变差,尤其是 24 个月。

state 和 county 字段采用 label encoding,并加入 cfips 字段(相当于 state + county),这些对预测结果都有帮助。

rate of change 效果更好

对于预测 n + gap 的任务,将原本要预测的密度连续值改为当前值与 gap 个月前的增长值。变化率示意图

对原始密度连续值创建滞后特征,再对该增长值创建滞后特征,可提升预测精度。将密度目标值转换为增长值后,LightGBM 和 XGBoost 模型需将默认的 objective 参数改为 pseudo huber loss 作为优化指标。

同比赛其他方案