受两百年前的霍乱启发,这家公司利用时空大数据在20余天内找出500名疫情密切接触者|AI战疫

日益成熟的人工智能,正成为抗击新冠肺炎疫情战线上一群特别的「逆行者」。

无论是加速前期的疫情科研攻关,还是协助一线的疫情诊疗和现场防控,以及后端的信息化平台搭建,都已经出现了人工智能技术和解决方案的身影,并且取得了实际效果。

机器之心特设「AI战疫专题报道」,跟踪人工智能技术应用抗疫现场的最新进展及效果,聚焦人工智能工作者英勇抗疫故事。

我们正在寻找AI战疫中优秀的人工智能公司和应用案例,欢迎提供报道线索,请联系houdijing@jiqizhixin.com。

今天是该系列的第七篇之《受两百年前的霍乱启发,这家公司利用时空大数据在20余天内找出500名疫情密切接触者| AI战疫》。

19 世纪,英国著名内科医生约翰·斯诺(John Snow)通过研究地图等时空数据发现:霍乱案件的污染源并非是空气,而是来自 Broad Street 的公共水泵,并通过被污染的饮用水进行传播。在他的呼吁下,当局关闭并转移了水泵阀,使得霍乱得以遏制。

两百年后,新冠肺炎暴发,京东数科使用「智能城市操作系统」中的核心技术——时空大数据分析技术及 AI 技术,协助政府开展高危人群分析及疑似人群排查工作,并寻找密切接触者。

虽然时隔两个世纪,但个中技术原理相同,都是通过查看时间、空间上的事务关联,得出准确的结论,只是约翰·斯诺医生当时没有计算机和 AI 而已。

二十余天内,京东数科帮北京市找到 500 余名高危的密切接触者;截至 3 月 1 日,为宿迁市找到全市范围四分之一比例的新冠肺炎确诊人员;在全国范围内,帮广州、南京、成都等 18 个省市做了高危人群态势分析。

撰文 | 太浪

编辑 | 四月

 一 主动请缨,驰援抗疫一线

大年三十凌晨 2 点,武汉下达「封城」令。

根据武汉市新型冠状病毒感染的肺炎疫情防控指挥部发布的通告,当日 10 时起,武汉市城市公交、地铁、轮渡、长途客运暂停运行,无特殊原因,市民不要离开武汉,机场、火车站离汉通道暂时关闭。

控制传染源、切断传播途径,保护易感人群,是预防传染病的三个有效手段。而据中国铁路武汉局发布的数据,武汉「封城」前一天,近 30 万人次通过铁路离开这座城市;又据新京报记者不完全统计,1 月 23 日 0 时到 10 时,从武汉发出可抵达大中城市的列车至少有 251 列,沿着武汉「米」字形轨道交通网,开往全国各地。

因此,掌握从疫区流出的高危人群的流向、排查疑似人群以及寻找密切接触者,及时对其隔离保护、防止疫情进一步扩散,成为各地政府最迫切的需求。

意识到疫情防控的严峻性后,京东集团副总裁、京东数字科技首席数据科学家、京东城市总裁郑宇希望能做些力所能及的事情。他立即改签机票,结束了春节与两个女儿的休假,从澳门飞回北京,并紧急集结「疫情防控技术体系」研发团队。大年初一,各团队成员改签机票、火车票,赶往北京。由于规定不能人员聚集,于是,他们就在各自的住处远程协调办公。

郑宇率领的京东城市是京东集团的一级战略部门,核心技术是「智能城市操作系统」,此前已在天津、南京、福州、宿迁等 30 多座城市提供技术服务,帮助政府部门对城市进行综合管理。

大年初二,郑宇便组织团队成员梳理所有技术成果,预想所有政府可能需要的技术支援,并进行技术可行性验证,以对哪些技术能在此次疫情中派上用场做到心里有数。

其中一例技术成果是,2015 年某城市踩踏事件后,京东城市基于「智能城市操作系统」的时空数据分析能力,为该市提供了「人流检测系统」,该系统能够预测到一个城市中每个片区在未来几个小时内的人口流入/流出情况。相同的技术,原理上也可以用来帮各地政府预测从疫区流出的人员流入情况。

在花了三天时间对诸如此类的想法进行可行性验证后,郑宇对接上北京市联防办,加入疫情防控第一线。

京东城市团队,第二排左二为京东城市总裁郑宇。


 二 霍乱案例受启发

作为技术提供方,他们要做的就是根据政府具体需求提供相应技术支持。郑宇介绍,联防办的需求主要有两点:一是想尽早知道从疫区流出的人群流向,「那些回到北京的人都分布在哪里,哪几个小区」,以便高效排查及宏观上对疫情进行把控;二是找出密切接触者,及时隔离保护,避免疫情扩散。

如何解决这两个棘手的问题?京东城市数据管理平台部(简称京东城市数据团队)负责人鲍捷给出了解决方案——使用时空大数据等相关技术。「接到任务后,我就开始思考,我这个方向能做什么。」鲍捷说,当回忆起博士一年级接触到的「霍乱」案例,受到启发。

伦敦霍乱

鲍捷是明尼苏达大学计算机系博士,师从 Mohamed Mokbel 博士(时空数据库领域知名教授,代表工作包括基于位置隐私保护的时空查询算法,主持开发了 spatialhadoop 等分布式时空大数据系统)和 Shashi Shekar 博士(时空数据挖掘领域知名教授,著有时空数据库教材《spatial database a tour》),主要研究方向包括时空大数据的管理分析和挖掘,曾在微软亚洲研究院工作多年,具备近十年的时空数据挖掘和管理经验。

「霍乱的传播方式直接与时空数据分析的结果相关,是时空大数据分析最经典的例子。」鲍捷解释道。

1854 年,伦敦霍乱流行,居住在或邻近伦敦苏活区 Broad Street 的 127 名居民在三天内接连死去。之后的一周内,这一地区四分之三的居民逃离。当时,关于霍乱的传播方式各有纷说,有人认为是通过空气传播,有人认为是通过人与人的接触。

直到一名叫 John Snow 的内科医生统计了疫情期间每户病亡人数,并把所有发病人的地理位置放到一张地图上,每死亡一人标注一条横线,然后根据地图进行分析。分析结果显示:Broad Street 附近的死亡病例都围着该街唯一的水泵,而临街因为酒厂工人大多饮用免费的啤酒而没什么死亡。霍乱死亡病例多少及分布都与距离污染水泵的远近有关,由此,他确定霍乱的污染源是 Broad Street 的公共水泵,并通过被污染的饮用水进行传播。在他的呼吁下,当局关闭并转移了水泵阀,使得霍乱得以遏制。

1854 年,John Snow 在伦敦霍乱爆发时研究个案时用的地图,受污染的水泵位于 Broad Street 和剑桥街(现列克星敦街)的交汇处。

「在流行病学分析里,人与人在时空上的关联是很标准很重要的分析手段。」鲍捷称。人的活动轨迹是典型的时空数据,因此,针对此次疫情,他们将联防办的两个主要需求抽象为「在给定的时空范围内,查找跟它相关的多元时空数据信息」。

据称,对时空数据的管理和分析挖掘的能力,正是京东数科「智能城市操作系统」中「时空数据引擎」的核心技术,之前已经建好,且有落地案例。比如,京东通过分析京东快递小哥的轨迹数据,修复小区内缺失的路网地图,并预测每条道路的通行时间,进而更好地协助快递员进行揽派件路径规划,提高整体工作效率。但之前并未针对疫情做定制化开发。

京东城市时空数据引擎通过轨迹数据恢复小区路网,协助快递员揽件派遣路径规划

「针对的业务场景不同,对于时空分析的方式也有差异。」鲍捷告诉机器之心,比如,都是被用来分析关联关系,但重线上(比如金融诈骗、传销)的业务更关注「朋友关系」,重线下的业务(疫情之类)更看重「时空的关联」。而时空查询经常是时空范围的查询,包括经度纬度时间三维,和一般的大数据 NoSQL 组件直接查 key-value 不一样。因此,他们针对如何高效地在大数据组件上支持时空索引,在开源框架的支持下做了很多改造。

时间紧,任务重。初三开始大规模投入,京东城市数据团队 30 多人均参与了「抗疫」项目,包括滞留在湖北的 2 名数据开发人员和 1 名算法工程师。最忙碌的几天,鲍捷从早上 10 点左右就开始电话会议,直到晚上,「经常要弄到凌晨四五点」。

鲍捷介绍,之前,他们突击项目都是在一个地方封闭办公,远程办公失去了那种氛围。「而解决这个问题,主要靠大家对做这个事情的重要性和意义的理解。大家也都自发地投入了大量时间和精力。」

因为一段代码的优化,京东城市数据团队开了 254 分钟电话会议。


 三 解决政府最迫切的两个需求

得益于以前的技术积累——京东城市于 2019 年 11 月推出的「时空数据引擎」(JD Urban Spatio-Temporal Data Engine,简称 JUST),一款高效、易用的时空大数据管理平台,采用先进的数据建模方法、数据存储技术、分布式索引技术和分析技术,预置了多种有效的时空挖掘算法,能够帮助人们便捷高效地管理海量时空数据。

京东城市「智能城市操作系统 2.0」

在将「时空范围的查询能力」赋予「时空数据引擎」后,京东城市数据团队用了四五天时间,就上线了「高危人群疫情态势感知系统」,用来协助政府开展高危人群分析、疑似人群排查工作,并查找密切接触者。

出于数据保护的考虑,他们在政府内部搭建起「京东疫情防控技术支持体系」:首先,基于联邦学习、同态加密、数据隐私保护的数字网关技术,在保证数据不出库的基础上,实现电信运营商、政府各个部门、公安和企业数据的融合;然后,用相比传统数据平台快 10-100 倍的时空大数据索引和查询速度,对数据进行归类、分析;最后,借助模块化人工智能算法,高效建立起「高危人群疫情态势感知系统」,义务助力政府防疫。

他们还设计并实现了一套完整的 SQL 引擎,并且阈值了多种开箱即用的时空分析方法。所有操作都可以采用类 SQL(用于在数据库中存储、处理和检索数据的标准语言)语句,降低了操作者的使用门槛,同时提高了系统的灵活性。

如果想知道 X 月 X 号到 X 月 X 号期间,A 城市的人到了 B 城市后都分布在哪里,只需在「高危人群疫情态势感知系统」中输入「时间范围」、「空间范围」、「时空范围的滞留时间」、「目标城市」,返程人员来源地区分布、新增健康异常人数、每日返程人数、离域人员统计、乘坐交通工具情况、去往省市分析等数据均能可视化呈现。

「时间范围」、「空间范围」、「时空范围的滞留时间」、「目标城市」都可以动态变化。其中,空间范围「可以大到整个湖北省,小到武汉市的一个街道一个小区。」

寻找密切接触者不是件容易的事。靠患者清楚无误地回忆——自己在确诊后、隔离前的那段时间,分别在什么时间点去过什么地方,不是最有效的办法。因为除了记忆模糊,患者有时候没办法说出来自己跟谁有过接触。比如,去菜市场买菜,去饭店吃饭,接触过的人,患者根本不认识。

人的活动轨迹是典型的时空数据,包括经度纬度时间三维,通过对患者的移动轨迹进行分析,就能知道患者到底跟哪些人有密切接触关系。针对这一需求,京东城市用上了其自研的时空轨迹挖掘算法。基于这一算法,他们早于 2013 年就在 ICDE 上发表了相关论文——《companion pattern mining from Jeffries》。

但由于现实生活中人不停分分合合,A 在和患者 B 在累计接触时间超过 1 小时、且两人间的空间距离足够近的情况下,才会被判定为「密切接触者」。因此,为了找到有共同驻留点的关联人员,需要先对轨迹数据进行处理。

这部分工作由京东城市数据团队中两位滞留湖北的数据开发人员完成,他们把一条长长的轨迹拆分开来,从中找出有意义的几段轨迹,并从中挖掘目标人员经常呆的地方等有用信息。

2 月 1 日,「重点人员行为轨迹分析系统」上线,北京市使用该系统,在二十余天内,找到了 500 余名密切接触者。

郑宇介绍,系统上线后,得到了北京市联防办的好评,团队成员也根据对方提出的新需求不断对产品进行迭代。

与此同时,广州、成都、南京、宿迁等城市政府部门也递来需求。他们希望所有的处理和分析最好能在尽可能快的时间结束,出结果,在拿到这些信息后及时地做出反应。

每天都有新的疫情暴发。「可能今天这个小区出现两个病例、变成疫区了,那整个小区都会被锁定。这个小区的人最近两到三天都过哪些地方,要再次分析。」查询工作的计算量一天要做好多次。

鲍捷坦言,针对疫情的工作需求交付,每天都压力很大。但他也很自豪自己的所学所能真的用到了实际的地方,产生了社会认可的价值。

截至目前,这两款产品已为北京市、南京市、广州市、辽宁省、内蒙古自治区、四川省、宿迁市等十几个省公安厅和市公安局提供技术支持和数据分析服务。

产业AI数据管理智能城市京东
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
京东数科机构

京东数字科技集团是一家为数字化服务而生的科技公司, 前身为京东金融, 创立于京东集团内部,2013年10月开始独立运营,2018年11月实现品牌升级。 京东数字科技集团以数据技术、人工智能、物联网、区块链等时代前沿技术为基础,建立并发展起核心的数字化风险管理能力、用户运营能力、产业理解能力和B2B2C模式的企业服务能力。公司经营的宗旨是从数据中来,到实体中去,通过数字科技来服务金融与实体产业,助力相关产业实现互联网化、数字化和智能化,通过降低成本、提高效率、提升用户体验和模式升级,最终实现新的增长,并在这个过程中创造公平与普惠的社会价值。 截至目前,公司完成了在智能城市、数字农牧、金融科技、资管科技、数字营销、数字乡村、智能机器人等领域的布局,服务客户纵贯个人端、企业端、政府端。截至2019年6月,公司已累计服务涵盖4 亿个人用户、800万线上线下小微企业、700多家各类金融机构、17, 000家创业创新公司、30余座城市的政府及其他公共服务机构。 2018年,公司完成B轮融资,估值超过 1, 300亿人民币。

https://www.jddglobal.com/?from=jrad_2264897&loc=2
暂无评论
暂无评论~