PDD Writeup | 优胜方案 - 数据竞赛网

PDD 写作

作者： Psi (及队友 dott1718, christofhenkel)

感谢我的队友 @dott1718 和 @christofhenkel 在这四场比赛中的通力合作。由于即使是上周的比赛在评分方面也已经接近半场，我们想简要概述一下我们的解决方案。我们对这四周的结果非常满意，特别是由于更乐观的模型（预测较少的病例和死亡人数）表现更好，而我们在第 2 周最悲观的模型表现最差。

第 1 周

每个人都在对 COVID-19 充满恐惧和不确定性的情况下进入这场比赛，我认为这也反映在了生成的模型中。当时可用的数据非常少，大多数国家处于严重的指数增长早期阶段。我们很快发现，由于缺乏历史数据，在这里使用任何机器学习模型似乎都不合适。因此，我们构建了贯穿这四周使用的主要模型基础。对于预测确诊病例，该模型使用恒定的增长率，该增长率随时间加速衰减。对于死亡人数，我们将给定时间滞后的预测病例数乘以给定国家的死亡率，并加上恒定的增长。

该模型允许我们在（超）参数的选择上有一定的灵活性。我们最终在第 1 周决定提交一份乐观的和一份悲观的预测，其中乐观预测的增长率较低，增长率衰减的加速度较高，而悲观预测则相反。对于那些我们已经拥有高于特定阈值的“足够”数据的国家，我们在特定时间段内学习增长情况，而对于其他国家，我们采用默认增长率。

乐观提交 https://www.kaggle.com/dott1718/cv19-by-growth-rate-v5-09?scriptVersionId=30833479 悲观提交 https://www.kaggle.com/dott1718/cv19-by-growth-rate-v5-03-per-5?scriptVersionId=30833633

乐观预测估计 30 天后（截至 4 月 22 日）全球将有 260 万病例和 12 万死亡人数。悲观预测则更加“末日”，预测将有 2400 万病例和 43 万死亡人数。乐观预测在私人排行榜上最终排名第 2，得分 1.07716，而悲观预测得分 1.29940，本可以排名第 5。这也让你很好地了解了该指标的问题，因为即使你在全球范围内与实际数字相差甚远，如果你预测对了一些低病例国家，指标也会大幅改善。

现在回过头来看，我不得不说我们在那里的全球估算真的非常精确。我刚刚查阅了 worldometer 的数据，4 月 23 日实际确诊病例为 2,722,000，而我们预测的是 2,650,252。我没想到我们会如此精确，即使个别国家可能存在偏差。

第 2 周

在前一周观察到更多的短期指数增长。我们主要重新利用了第 1 周的模型并稍作调整，谢天谢地我们将它们过拟合于短期增长模式，这使得它们回顾起来相当悲观。第二次提交将幂律拟合与指数截断混合到模型中，这实际上是我们这里较好的提交。

提交 1 https://www.kaggle.com/dott1718/cv19w2-2-sub?scriptVersionId=31270684 提交 2 https://www.kaggle.com/philippsinger/cv19w2-pl4-sub?scriptVersionId=31271930

第 3 周

我们看到机器学习解决方案开始崭露头角，特别是对于短期预测，我们决定一方面进一步调整我们的模型并提交，另一方面混合一些公开的机器学习解决方案。具体来说，我们使用了 @cpmpml (+团队)、@gaborfodor 和 @osciiart 的提交——所以感谢他们！我们在最终的混合中严重超配了我们的模型和 oscii 的模型，权重为 8-8-1-1。

单模型提交 https://www.kaggle.com/philippsinger/cv

同比赛其他方案

~1st Place Solution LGBM with some adjustments

Some ML, A lot of judgement and luck

4th Place Neural Network Solution

~5th Place Simple Linear QuantReg Solution

9th place solution (a lot of LGBMs blended)