返回列表

~1st Place Solution LGBM with some adjustments

376. COVID19 Global Forecasting (Week 5) | covid19-global-forecasting-week-5

开始: 2020-05-04 结束: 2020-05-11 健康管理与公共卫生 数据算法赛
第一名方案:经过调整的 LGBM

第一名方案:经过调整的 LGBM

作者: beluga (Grandmaster) | 排名: 第 1 名

摘要

我们利用时间序列和地理特征训练了具有分位数回归功能的 LGBM 模型,用于短期预测。长期预测则使用了激进的 1 周平均值平滑处理。由于小规模地点数量众多,必须对前 30 个国家/州进行手动调整。

特征工程

  • 人口
  • 经度、纬度
  • 星期几
  • 每天占总病例的份额
  • 滚动平均值/标准差(1周、2周、3周)
  • 累计总数
  • 确诊 - 死亡率
  • 过去 2-3 周的趋势
  • 按人口标准化的特征
  • 基于最近 5-10-20 个地点的邻近特征
特征工程截图

将特征重新缩放并四舍五入到小数点后 1-2 位,以减少过拟合。

外部数据

我首先搜索了公开的美国县级人口统计数据(年龄、收入、人口密度、COVID19 封锁信息等)。虽然找到了一些有用的来源,但我没有时间进行清洗和合并。我使用的唯一外部数据是每个地点的地理编码经纬度坐标。

建模

针对每个目标/分位数/预测滞后分别训练了单独的模型,使用了基于地点的 5 折交叉验证,并基于 Pinball Loss 进行早停。模型仅被训练用于预测接下来的 1-14 天。

  • 训练了一堆具有随机参数的 LGBM 进行融合
  • 基于地点权重和时间衰减的样本加权

后处理

  • 将负预测值裁剪为 0
  • 确保 0.05(0.95)分位数预测值不高于(低于)中位数
  • 平滑每日预测值 (Y[t] * 0.66 + Y[t-1] * 0.33)
  • 对于美国国家总数,使用州级汇总数据作为中位数
  • 手动检查并调整了前 30 个国家
  • 基于最后预测的周平均值的平坦长期预测
  • 对 0.05 分位数和中位数添加了小幅每日衰减
结果图表
同比赛其他方案