373. COVID19 Global Forecasting (Week 4) | covid19-global-forecasting-week-4
感谢我的队友 @dott1718 和 @christofhenkel 在这四次比赛中的合作。由于即使是上一周的比赛在评分方面也已经接近半程,我们想简要概述一下我们的解决方案。我们对这四周的结果非常满意,特别是那些更乐观的模型(预测较少的病例和死亡人数)表现更好,而我们在第 2 周最悲观的模型表现最差。
每个人怀着对 Covid-19 的恐惧和不确定性进入这场比赛,我认为这也反映在了生成的模型中。当时可用的数据非常少,大多数国家处于严重指数增长的早期阶段。我们很快发现,由于缺乏历史数据,利用任何机器学习模型在这里似乎都不合适。因此,我们构建了我们在所有四周中使用的主要模型的基础。为了预测确诊病例,该模型使用一个恒定的增长率,该增长率随着时间的推移被加速的衰减所降低。对于死亡人数,我们将给定时间滞后的预测病例数乘以给定国家的死亡率,并加上一个恒定的增长。
该模型允许我们在(超)参数的选择上有一定的灵活性。我们在第 1 周最终决定提交一份乐观的和一份悲观的预测,其中乐观预测的增长率较低,且该增长率的衰减加速度较高,而悲观预测则相反。对于我们已经拥有高于特定阈值“足够”数据的国家,我们在特定时间段内学习其增长,而对于其他国家,我们采用默认增长率。
乐观提交:https://www.kaggle.com/dott1718/cv19-by-growth-rate-v5-09?scriptVersionId=30833479
悲观提交:https://www.kaggle.com/dott1718/cv19-by-growth-rate-v5-03-per-5?scriptVersionId=30833633
乐观预测显示,截至 4 月 22 日,30 天后全球将有 260 万病例和 12 万死亡人数。悲观预测则更加“世界末日”,预测有 2400 万病例和 43 万死亡人数。乐观预测最终在 Private LB(私有排行榜)上排名第 2,得分为 1.07716,而悲观预测得分为 1.29940,本可以排第 5 名。这也让你很好地了解了这个指标的问题,因为即使你在全球范围内与实际数字相差甚远,如果你预测对了一些低病例国家,指标也会大幅改善。
现在回过头来看,我不得不说我们在那里的全球估算真的非常精确。我刚查了 worldometer 的数据,4 月 23 日实际确诊病例为 2,722,000,而我们预测的是 2,650,252。我没想到我们能如此精确,即使个别国家可能会有偏差。
在前一周观察到了更多的指数级短期增长。我们主要重新利用了第 1 周的模型并稍作调整,庆幸的是我们将它们过拟合于短期增长模式,这使得它们回想起来相当悲观。第二次提交将幂律拟合与指数截断混合到模型中,这实际上是我们这里较好的提交。
提交 1:https://www.kaggle.com/dott1718/cv19w2-2-sub?scriptVersionId=31270684
提交 2:https://www.kaggle.com/philippsinger/cv19w2-pl4-sub?scriptVersionId=31271930
我们看到机器学习解决方案开始崭露头角,特别是对于短期预测,我们决定一方面进一步调整我们的模型并提交,另一方面混合一些公开的机器学习解决方案。具体来说,我们使用了来自 @cpmpml(+团队)、@gaborfodor 和 @osciiart 的提交——感谢他们!我们在最终混合中严重超配了我们的模型和 oscii 的模型,权重为 8-8-1-1。
单模型提交:https://www