559. GoDaddy - Microbusiness Density Forecasting | godaddy-microbusiness-density-forecasting
以下是对预测有帮助的方法:

active:该县微型企业的原始数量。预测目标为人口密度 = active / 人口。人口统计数据每年一月发生变化。竞赛要求预测 2023 年的人口密度,而人口密度的分母(人口)已发生变化。基于现有数据,使用公式(2023 年预测值 × 2020 年人口) ÷ 2021 年人口估算人口趋势变化系数,并用该系数修正预测值。由于分子 active 本为整数,预测值乘以人口后通常为连续值(如 1.3),而实际值可能为整数 1,因此取整有助于提高精度。系数修正后的预测值应乘以 2021 年人口,取整后再除以 2021 年人口,进行进一步修正。

创建过去 12 个月的滞后特征。若使用 24 或 6 个月,效果会变差,尤其是 24 个月。
对于预测 n + gap 的任务,将原本要预测的密度连续值改为当前值与 gap 个月前的增长值。
对原始密度连续值创建滞后特征,再对该增长值创建滞后特征,可提升预测精度。将密度目标值转换为增长值后,LightGBM 和 XGBoost 模型需将默认的 objective 参数改为 pseudo huber loss 作为优化指标。
本方案来自 Kaggle 竞赛「Godaddy Microbusiness Density Forecasting」的 Public 1125 → Private 48 解决方案。