第四范式联合周志华团队等搭建新冠病毒自学习模拟器:较传染病预测模型误差降低90% | AI战疫

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四范式</mark>联合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志华</mark>团队等搭建新冠病毒自学习模拟器:误差降90%

日益成熟的人工智能,正成为抗击新冠肺炎疫情战线上一群特别的「逆行者」。

无论是加速前期的疫情科研攻关,还是协助一线的疫情诊疗和现场防控,以及后端的信息化平台搭建,都已经出现了人工智能技术和解决方案的身影,并且取得了实际效果。

机器之心特设「AI战疫专题报道」,跟踪人工智能技术应用抗疫现场的最新进展及效果,聚焦人工智能工作者英勇抗疫故事。

我们正在寻找AI战疫中优秀的人工智能公司和应用案例,欢迎提供报道线索,请联系houdijing@jiqizhixin.com。

今天是该系列的第六篇之《第四范式联合周志华团队等搭建新冠病毒自学习模拟器:较传染病预测模型误差降低90% | AI战疫》。

「流动、汇集,不断的流动、不断的汇集……在幅员辽阔的中国,南北城市远隔千里,病毒的传播或许只在数小时的飞行之后。」

纪录片《非典十年祭》这样形容当时 SARS 病毒的蔓延;17 年后,当年的病毒换了身行头,故伎重演,来势汹汹。

「打赢疫情防控阻击战」,响亮的口号,频频在头版头条里响起,但新冠病毒却以人类未知的火速势头燎原,占得先机。要取得胜利,必须找到更为精准而高效的武器。

你瞧,一群手握机器学习、大数据「武器」的技术队伍已经默默登场,为恐慌的人类开启「上帝视角」,在数十个日夜里测绘出各种潜在威胁的可能性,巧妙地避开了与病毒的狭路相逢。

经此一役,疾控体系数字化和智能化的价值被见证,后续相应的改革与升级也将势在必行。

撰文 | 凡雪、四月

编辑 | 四月

当现实世界里关于新冠病毒的多维度数据被深度挖掘出来,源源不断地投喂进自洽自足的机器学习平台,一套仿照现实世界运转机制的「孪生系统」因此而构建成型。

人类在屏幕前通过鼠标键盘,在模拟的数字世界里,紧锣密鼓地狙击病毒:追踪传染路径、筛查易感人群、推演疫情发展……每一步都被人工智能演绎地淋漓尽致。

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四范式</mark>联合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志华</mark>团队等搭建新冠病毒自学习模拟器:误差降90%

基于机器自学习搭建的传染病疫情演进预测系统示意图

它是哮天犬「天地无极、万里追踪」的筛查追踪功能,在微观的人口流动中定位潜在传染源和高风险人群(携带新冠病毒而不自知)。

也是《模拟人生》里的现实世界模拟器,充分考虑复杂环境下的各种突发因子(交通管制/复工时间/药物设施等),在模拟器上修改相关变量,进而推演出疫情狙击中人工干预的最优政策。

第四范式联合南京大学 LAMDA 研究所和苏北人民医院组队,针对疫情推出的智能疫情防控系统,正是基于这样一套思路。


 一 CEO 接下「神秘」任务

除夕夜,第四范式的微信群里,新年祝福刷屏之后,突然跳出一则动员信息,打乱了节奏。

原来,公司被推荐加入了一个来自上级的「特殊」项目,由 CEO 戴文渊亲自承接。项目与疫情防控有关,刚开始还有点「神秘」。

经公司高层动员,项目是为疫情做贡献,很快便有几十人主动参与进来。

随后,项目总负责人涂威威邀请了以周志华教授为首的南京大学 LAMDA 研究所、苏北人民医院的十数名专家加入项目组,整个系统项目组已接近百人规模。他们的任务是为疫情防抗搭建一套基于机器学习技术的精准防控决策支持系统。

第四范式,全称为 第四范式 (北京) 技术有限公司,是一家于 2014 年成立的人工智能技术与服务提供商,创始团队来自百度凤巢推荐系统、今日头条推荐系统等核心技术团队。

第四范式擅长搭建复杂的机器学习模型平台,并将之业务和产品化。早在 2016 年,第四范式就发布了相关产品「第四范式先知」——一套企业级的人工智能 PaaS 平台,能力覆盖人工智能项目从应用开发、运行到管理的全生命周期。

据 IDC 2019 年发布的《中国机器学习开发平台市场评估》报告显示,第四范式、阿里、百度AWS腾讯微软等位列领导者象限。其中,作为 AI 独角兽的第四范式,占据了中国市场的最大份额。


 二 当机器学习遇上传染病学

项目组分设有前端、后端两个部分。前端由王巍负责,王巍今年和家人留京过春节,无离京记录,健康状况良好,成为疫情下的最佳前端人选。

事实上,项目前期前端只有他一人在现场。接到任务后,王巍每天生活就是朝八晚八,两点一线。

早晨 8 点前,王巍需要赶到北京项目组安排的集中办公点。测过体温,身份验证之后,进入井然有序的办公区间,口罩下的人脸只剩下一双双专注的双眼,紧盯电脑屏幕。

春节期间,疫情仍处于上扬势头,政策调控方的需求变化多端,各方数据滚滚而来,王巍主要承担需求和任务的汇总梳理工作,将其有节奏有条理地反馈给后端团队,以保证将有限的资源投入关键领域。

「数据更新频率很快,一般来说,一小时至半天左右更新。所以我们的响应速度也需要比较快」王巍说。

「下班后,他还要和我们对需求,压力是比较大的」,项目总负责人涂威威补充,不断更新汇总的宏观数据,对于后端合理地设计模型,有效调用算法起到关键性作用。

如果说,前端的压力主要聚焦在极短的任务交付期限中,那么后端的压力则贯穿始终。

涂威威同时也是范式后端数十人科学家的领队,主要通过远程办公协同,没有严格的固定工作时间点——往往意味着要随时待命,模型调到凌晨 2-3 点是家常便饭。

协同过程中,涂威威与南京大学 LAMDA 研究所詹德川、俞扬教授和国家 GCP 机构办主任余果的四人工作微信群每天都会从早晨密集讨论到深夜。

「项目背后的指导老师周志华教授也全程在各方面为项目组提供细致的指导,很多时候周老师会与我们沟通工作到凌晨三四点。」涂威威介绍。

最初,这帮科学家的想法很简单——让技术产生价值;然而,好想法在实际运用中却得不到好结果。

由于缺乏传染病学背景知识,科学家团队采用了一组固有的传染系数,套用在不同地区、不同场景上,但却与实际数据相去甚远。

随着团队与一线医学专家深入交流和探讨,问题才逐渐浮出水面。

「传染系数实际受到多种因素影响,」涂威威解释道,「比如飞机里的传染率其实比火车低很多,因为空气是循环的;又如经济发达地区,居民防护意识较强,传染率会较低……」

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四范式</mark>联合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志华</mark>团队等搭建新冠病毒自学习模拟器:误差降90%

飞机不同座位传染率(图源:国家地理中文网)

基于此,团队替换掉了此前的固有传染系数,转而构建一套传染模型,综合考虑地区、场景、时间等各种实际因素。根据机器学习结果,团队再进一步找医学专家验证及优化,依此往复。

据涂威威介绍,经过对全国各省建模,自学习模拟器相对改进版传染病模型(SEIR 模型)的误差平均降低 90%,与实际数据出现比较好的拟合状态。

「疫情目前的发展轨迹都在印证了之前推演结果,在一定程度上也消除了我们自身对疫情的焦虑,」他谈道。

此外,系统团队每天会定期与宏观调控部门的技术人员远程连线,在结果层面、方法论上进行探讨,针对系统预测值和实际值的差距进行优化。

「在这个过程中,产品的迭代以小时为单位计算——每隔两三个小时,相关部门就会要求更新结果,3-5 天产品实现较大提升。」说到这,涂威威的语速不自觉地加快。


 三 战疫侦察三部曲:追踪、筛查、推演

如果消灭疫情是场「阻击战」,从防控前期的病毒传播分析到易感人群的精准筛查再到后期推演疫情,为决策层制定政策并影响疫情发展做支持,都必须做到「快且准」,小到预测某个地区的传染率,大到提前为某省市颁布整体防控决策做预演辅助。

为此,这只由人工智能专家和医学专家组建的联合团队,从复杂多变的物理世界中挖掘多维度数据,利用机器学习技术构建数据驱动的新冠病毒传播数字孪生系统。

这就像一套现实世界里的病毒传播模拟器,可以模拟出各项与疫情相关的变量、指标(交通管制/复工时间/药物设施等),以实现精准而有效的传染源定位、人群筛查以及疫情推演。

该套系统依托于第四范式的底层人工智能 PaaS 平台,针对疫情场景进行了应用升级,在平台的核心算法、功能组件和底层技术(如自动机器学习技术)等方面已经有了成熟的经验保障。

针对疫情发展的不同阶段和实际场景需求,系统团队提出了三套方案应用,分别对应追踪传播路径、筛查高危人群、疫情态势推演。

1、精准防控第一步:追踪传播路径

在疫情发生后,病毒传染路径分析极为关键,系统将模拟出一套潜在传染的关系网,在关系网中找到可能的传播路径协助精准防控。

此外,第四范式还构建了可学习的事件回放模拟器,及时发现并复盘潜在传染路径以及传染方式,帮助防疫部门快速切断疫情的蔓延,同时反哺到病理学相关研究,提供研究方向上的辅助。

2、精准防控第二步:筛查高危人群

在防控关键阶段,核心是要找到潜在的高风险人群。为此,涂威威团队构建了一套精准筛查模型,利用 AI 技术丰富了现有的防控筛查规则模型,进一步提升人群的覆盖面以及筛查的召回率与准确率

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四范式</mark>联合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志华</mark>团队等搭建新冠病毒自学习模拟器:误差降90%

医学专家建议的「ABCD」人群分类,A 是指有武汉接触史的人,B 是指 A 出门在公共场所中遇到的所有陌生人,C 是指 A 接触到的熟人,D 是指没有外出的安全市民。

传统的筛查规则系统是通过判断是否和确诊或疑似人员在同一地区同时出现,其准确度还有很大的提升空间。

比如,由于 A、C 两类都容易识别并进行隔离,B 类人群由于与 A 互不认识,很有可能被感染而不自知,引发更大范围的疫情感染。「而且病毒传染方式多变,受天气、空气流通性、接触方式等各方面因素综合影响,所以需要一套更为『精准』的高维筛查模型。」涂威威说道。

3、精准防控第三步:推演疫情发展,提供宏观决策预判

对于决策者,知晓疫情变化趋势、预判拐点成为更加紧要的事情,而且从宏观决策来看,国家需要对全国疫情精准推演,以减少疫情蔓延。

而与此同时,众多现实因素干扰使得传统理想化模型预测疫情不再可行。

为此,系统团队采用了高维机器学习技术以及多维度的数据,构建出更细粒度、更接近实际情况的可学习的省市区县级数字孪生系统。

与过去基于人写规则的数字孪生系统不同,基于机器学习、高维非梯度优化等技术的系统最大亮点在于数据驱动,从数据中学习出数字孪生系统,可就关键决策一旦实施所带来的影响进行精准的仿真预判,为制定实用有效的防控政策提供重要依据。

「大众经常可以看到限制聚众、封路、封闭小区等加大防控力度的政策,或者复工复产、降低响应机制等级的风向变化,这套系统就可以有效辅助类似决策」,涂威威解释道。

据了解,该套解决方案除了为有关部门提供防控支持之外,已经下沉到地方政府,帮助更多部门在疫情一线提升效率、辅助决策,协助企业做好微观防控。

接下来,全民进入复工复产状态,方案也进行了针对性功能调整——如何在控制疫情和恢复经济中应寻求平衡是关键。比如,复产排班的合理性,针对工作区域划分危险等级等。


 四 疫情之后,我们如何复盘?

病毒虽然疏离了我们的物理距离,却好像又拉近了一些东西,比如疫情之下,我们共同见证的抵抗,共同追问的话题,共同反思的漏洞。

时至今日,我们完全有理由相信,疫情终将平息,但一场大病之中暴露的问题和反思总结才刚刚开始。

新冠疫情发生以来,疫情防治工作在早期经历了民众质疑与信任危机,面对爆发突然、传染性极强的全新冠状病毒,前期近一个月的防控措施效果有限。

在涂威威看来,未来,国家乃至全球层面,基于数据驱动的疾控系统一定会进一步完善。而这套全民抗疫过程中所沉淀出的方案、经验和技术也将在后续人类与病毒共生的岁月里发挥出更大的价值。

经此一役,中国疾控体系的数字化和智能化改革势在必行,我们也拭目以待。

产业AI周志华模型优化第四范式新冠肺炎
2
相关数据
AWS机构

亚马逊网络服务系统(英语:Amazon Web Services,缩写为AWS),由亚马逊公司所创建的云计算平台,提供许多远程Web服务。Amazon EC2与Amazon S3都架构在这个平台上。在2002年7月首次公开运作,提供其他网站及客户端(client-side)的服务。截至2007年7月,亚马逊公司宣称已经有330,000名开发者,曾经登录过这项服务。

相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
第四范式机构

第四范式成立于2014年,是国际领先的人工智能平台提供商,利用机器学习技术,帮助企业提升效率、降低风险,获得更大的商业价值。第四范式坚持以“Empower AI Transformation and Inspire AI For Everyone”为企业愿景,依托于AutoML、迁移学习等技术与企业级人工智能PaaS平台,不断推动人工智能快速、规模化的产业落地。目前,第四范式已在银行、保险、政务、能源、智能制造、零售、医疗、证券等领域积累超过上万个AI落地案例,助力各行各业AI创新变革。

https://www.4paradigm.com/
周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

俞扬人物

博士(导师为周志华),南京大学副教授,南京大学机器学习与数据挖掘研究所(LAMDA)成员。主要研究领域为人工智能、机器学习、演化计算、数据挖掘。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
数字孪生技术

数字孪生(*Digital twin*)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字副本。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
暂无评论
暂无评论~