蛋酱编辑

一人碾压专业机构,27岁MIT毕业生打造美国新冠预测「最准」模型

这位年仅 27 岁的华裔 MIT 毕业生,在疫情期间运用机器学习算法打造出了当前准确度最高的新冠预测模型。

自新冠疫情席卷全球以来,大众一直希望通过专业的统计模型来了解病毒可能会带来的影响。其中有两个模型最受公认,一个来自伦敦帝国理工学院,一个来自西雅图的华盛顿大学健康数据与评估研究所(IHME)。

当然,这两个模型的预测走向是截然不同的,关键在于,和最终实际情况都不太接近。帝国理工模型预测到 2020 年的夏天美国可能会有 200 万新冠死亡病例,IHME 的预测则保守得多,为 6 万例。事实是,截止 2020 年 8 月初,美国最终死亡病例数为 16 万人。

但有一个模型,却因精准的预测数据广受好评:一位 27 岁的 MIT 毕业生、华裔数据科学家,做出了「超越专业机构水平」的新冠预测模型。


他的名字是 Youyang Gu,被外媒彭博社称为「Covid-19 Data Superstar」。包括《华尔街日报》 、《经济学人》 、《纽约时报》 、《华盛顿邮报》等知名媒体都报道了他开发的新冠预测模型。

在 2020 年 4 月中旬,Youyang Gu 注意到当时各预测模型的数据存在巨大差异,于是花了一个星期的时间搭建起了自己的预测模型和网站。


网站地址:https://covid19-projections.com/

华盛顿大学的生物学家 Carl Bergstrom 在社交平台推荐了这一模型:「所看到的一切令我印象深刻。」


从建立之初,该模型的表现就非常良好。比如模型在 4 月下旬预估,到 5 月 9 日美国将有 8 万人死亡,实际死亡人数为 79926;模型还预估 5 月 18 日美国将有 9 万例死亡,5 月 27 日将有 10 万例死亡,这些数字后来都被验证。此外,模型还预估随着许多州的封锁解除,将引起第二次大规模的感染和死亡。

到了 11 月,Youyang Gu 决定结束死亡数量预测,在项目停止前的一个月,该模型预测美国截止 2020 年 11 月 11 日的死亡人数将达到 231000 人。最终的实际数字与之非常接近:230995 人。

越来越多的人关注到 Youyang Gu 的工作,美国疾病控制与预防中心(CDC)也在新冠预测网站加上了该模型的数据,助力公共卫生决策。

关于 covid19-projections.com
 
现在,该网站能够提供的预测内容包括:1、美国总体感染数量预估;2、美国各州感染数量预估;3、美国各县感染数量预估。


某种意义上,Youyang Gu 搭建的网站并不复杂,他首先考虑的是检查「新冠检测」、「住院情况」和其他因素之间的关系,发现州政府和联邦政府在这类数据上的报告情况是不一致的。看起来最为可靠的是死亡人数,据 Youyang Gu 介绍:「其他模型用了更多的数据源,但我决定根据以往的死亡数量来预测未来的死亡数量,将其作为唯一输入,有助于从噪声中滤除信号。」

此外,这一模型的搭建也与他对机器学习算法的运用分不开。从 MIT 毕业后,Youyang Gu 在金融业有两年的工作经验,曾为高频交易系统编写算法。

SEIR 模拟器


具体来说,该模型基于流行病学中常用的经典 SEIR (易感 - 暴露 - 传染 - 恢复,susceptible-exposed-infectious-recovered) 模型,并增加了一个「暴露期」。如何理解 SEIR?在每个时间段,个体处于以下四种状态之一:易感 (s)、暴露(e)、传染(i) 和恢复(r)。


  • 如果一个人处于易感状态,我们可以假设他们是健康的,但没有免疫力。

  • 如果他们处于暴露状态,他们已经感染了病毒,但不具有传染性。

  • 如果他们是传染性的,他们可以传播疾病。

  • 一个被感染的人要么最终康复,要么死亡。


(假设康复的个体再次感染的机会很低,但并不为零。)

不同于传统的 SEIR 模型,该模拟器不使用微分方程。SEIR 并不是 covid19-projections.com 使用的完整模型,作者主要用其模拟个体每个时间段在这些不同状态间的移动。如果你的系统支持 Python,则可以在 5 分钟内生成自己的模拟器,代码地址:https://github.com/youyanggu/yyg-seir-simulator


数据集

covid19-projections.com 使用的唯一数据来源是 Johns Hopkins CSSE 每天报告的死亡人数,此外还使用每个州 / 国家 / 地区的人口数据来计算总易感人口。


由于原始数据可能比较嘈杂,因此作者首先运行平滑算法以对数据进行平滑处理。例如,如果一个州一天报告 0 例死亡,第二天报告 300 例死亡,则数据进行平滑处理后显示每天 150 例死亡。


作者使用了「网格搜索」等简单的机器学习技术,以确定相关参数的「真实值」,来使用 SEIR 模拟器准确地模拟现实世界中发生的事情。为了尽量避免模型的过拟合问题,作者开发了一个强大的验证系统,该系统允许在受控环境中测试各种变化,从而最大限度减少过拟合

比如将模型设置为在前 20 天数据中运行,比较接下来 10 天的效果;然后通过在前 21 天数据中运行,并比较接下来 9 天的效果;重复此过程,依此类推来执行交叉验证,同时保留训练集中的最大数据量。

关于 Youyang Gu

最后我们来了解一下模型作者本人。


Youyang Gu 在伊利诺伊州和加利福尼亚州长大,在 MIT 获得学士学位,主修电气工程、计算机科学和数学。他还获得了 MIT 的硕士学位,并作为 MIT CSAIL 自然语言处理小组的一员完成了他的论文。

从 2020 年 11 月开始,Youyang Gu 的工作重点是预估美国 50 个州和 3000 多个县的实际新冠感染数量。

接下来,Youyang Gu 将开发其他预测工作,比如美国有多少人感染、疫苗推出速度有多快,以及美国何时能够实现群体免疫等有关数据。他的预测表明,到 6 月时,美国大约 61%的人口应具有某种形式的免疫力,来自疫苗或是过往的的感染经历。

参考链接:https://www.bloomberg.com/news/articles/2021-02-19/covid-pandemic-how-youyang-gu-used-ai-and-data-to-make-most-accurate-prediction

产业彭博社新冠疫情麻省理工学院(MIT)
相关数据
网格搜索技术

网格搜索是一项模型超参数优化技术,常用于优化三个或者更少数量的超参数,本质是一种穷举法。对于每个超参数,使用者选择一个较小的有限集去探索。然后,这些超参数笛卡尔乘积得到若干组超参数。网格搜索使用每组超参数训练模型,挑选验证集误差最小的超参数作为最好的超参数。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

推荐文章
暂无评论
暂无评论~