376. COVID19 Global Forecasting (Week 5) | covid19-global-forecasting-week-5
感谢我的队友 @dott1718 和 @christofhenkel 在这四场比赛中的通力合作。由于即使是上周的比赛在评分方面也已经接近半场,我们想简要概述一下我们的解决方案。我们对这四周的结果非常满意,特别是由于更乐观的模型(预测较少的病例和死亡人数)表现更好,而我们在第 2 周最悲观的模型表现最差。
每个人都在对 COVID-19 充满恐惧和不确定性的情况下进入这场比赛,我认为这也反映在了生成的模型中。当时可用的数据非常少,大多数国家处于严重的指数增长早期阶段。我们很快发现,由于缺乏历史数据,在这里使用任何机器学习模型似乎都不合适。因此,我们构建了贯穿这四周使用的主要模型基础。对于预测确诊病例,该模型使用恒定的增长率,该增长率随时间加速衰减。对于死亡人数,我们将给定时间滞后的预测病例数乘以给定国家的死亡率,并加上恒定的增长。
该模型允许我们在(超)参数的选择上有一定的灵活性。我们最终在第 1 周决定提交一份乐观的和一份悲观的预测,其中乐观预测的增长率较低,增长率衰减的加速度较高,而悲观预测则相反。对于那些我们已经拥有高于特定阈值的“足够”数据的国家,我们在特定时间段内学习增长情况,而对于其他国家,我们采用默认增长率。
乐观预测估计 30 天后(截至 4 月 22 日)全球将有 260 万病例和 12 万死亡人数。悲观预测则更加“末日”,预测将有 2400 万病例和 43 万死亡人数。乐观预测在私人排行榜上最终排名第 2,得分 1.07716,而悲观预测得分 1.29940,本可以排名第 5。这也让你很好地了解了该指标的问题,因为即使你在全球范围内与实际数字相差甚远,如果你预测对了一些低病例国家,指标也会大幅改善。
现在回过头来看,我不得不说我们在那里的全球估算真的非常精确。我刚刚查阅了 worldometer 的数据,4 月 23 日实际确诊病例为 2,722,000,而我们预测的是 2,650,252。我没想到我们会如此精确,即使个别国家可能存在偏差。
在前一周观察到更多的短期指数增长。我们主要重新利用了第 1 周的模型并稍作调整,谢天谢地我们将它们过拟合于短期增长模式,这使得它们回顾起来相当悲观。第二次提交将幂律拟合与指数截断混合到模型中,这实际上是我们这里较好的提交。
我们看到机器学习解决方案开始崭露头角,特别是对于短期预测,我们决定一方面进一步调整我们的模型并提交,另一方面混合一些公开的机器学习解决方案。具体来说,我们使用了 @cpmpml (+团队)、@gaborfodor 和 @osciiart 的提交——所以感谢他们!我们在最终的混合中严重超配了我们的模型和 oscii 的模型,权重为 8-8-1-1。