龚力校对文婧 编辑

一文了解大数据在国内外疾病监测与预防中的应用现状

2020年,一场新冠疫情使多个国家公共卫生系统不堪重负,暴露出应急处置能力的薄弱等问题,改革和加强公共卫生事件应急处置已成为全球关注焦点。今年2月,习总书记来到北京市朝阳区CDC进行调研指导时指出:“这场疫情对全国各级疾控中心的应急处置能力是一次大考。这次抗击疫情斗争既展示了良好精神状态和显著制度优势,也暴露出许多不足。要把全国疾控体系建设作为一项根本性建设来抓,加强各级防控人才、科研力量、立法等建设,推进疾控体系现代化”。
 
现代化的疾控体系离不开大数据、人工智能等新兴技术的加持。对于公共卫生部门,可以通过覆盖全国的患者电子病例数据库,快速监测传染病,进行全面的疫情监测,并通过集成疾病监测与响应程序,快速进行响应。大数据在常态化监测、疫情预警处置、趋势预测研判、传染源追本溯源、资源调配和防控救治方面都能起到至关作用。
 
如今,全世界各国都深刻认识到健康医疗大数据作为国家基础性战略资源重要性,争相建设国家健康医疗数据库,抢占医学研究、精准诊疗和尖端移动设备前沿阵地。2016年,在原国家卫生和计划生育委员会牵头下,逐步建设国家基因库,落实1个国家数据中心、5个区域数据中心、X个应用发展中心(即“1+5+X”)健康医疗大数据规划,催生新业态、促进新经济。

一、大数据在我国疾病监测领域中的应用现状
 
2003年SARS爆发,暴露了我国传染病监测报告信息严重滞后的问题,畅通的疾病监测信息网络成为疾病预防控制信息建设的当务之急。因此,自2003年后,我国启动了应急管理体系建设,其核心是围绕“一案三制”,建立“国家统一领导、综合协调、分类管理、分级负责、属地管理为主的应急管理体制”。其中,“一案三制”是指国家突发公共事件应急预案体系及国家应急管理的体制、机制和法制。2004年初,以现代网络传输技术为依托,以“横向到边、纵向到底”连接全国各地为原则,以统一、高速、快速、准确传递信息为目标的中国疾病预防控制信息系统初具雏形。
 
2020年新冠疫情爆发,很多人质疑为什么从2004年开始运行、当时耗资7.3亿元巨资建设的国家传染病与突发公共卫生事件网络直报系统没有发挥预警作用。事实上,疾控直报专网并非没有发生作用。据媒体报道,疾控直报专网的数据来源完全取决于上报数据,由于种种因素,疾控直报专网无法与医院内部网络进行直接连通。由于采集不到数据,这一系统自然无从发挥功能。2月3日,卫健委发布了《关于加强信息化支撑新型冠状病毒感染的肺炎疫情防控工作的通知》。各地卫健委根据通知不断改进采集方式,多数医院开始采用网络直报的方式,总算逐渐发挥了专网的作用。由此可见,对于大数据来说,真实的数据来源是极其重要的一步。 
 
在医疗健康数据库方面,2006年我国开始建设国家医疗健康数据库,整合区域范围内医院、基层卫生机构及公共卫生机构的各类数据,形成以个人为中心的全生命周期电子健康档案库。2015年,原国家卫计委启动了十省互联互通项目,我国约50%的委属医院,42%的省属医院和38%的市属医院已启动医院信息平台建设。2016年,原国家卫计委启动“1+5+X”健康医疗大数据发展规划,建设江苏省(东)、贵州省(西)、福建省(南)、山东省(北)以及安徽省(中)五大数据中心。2017年,原国家卫计委牵头组建医疗健康数据三大集团,包括中国健康医疗大数据产业发展有限公司、中国健康医疗大数据科技发展集团公司及中国健康医疗大数据股份有限公司,以承担国家健康医疗大数据中心、区域中心、应用发展中心和产业园建设任务。
 
在生物数据库方面,国家基因库2016年正式建成,该基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体。福建省和江苏省作为国家健康医疗大数据中心的“先行者”,立足自身优势,逐步建立了政策保障体系和数据平台。
 
总体来说,在传染病防控工作中让AI+大数据技术发挥作用,既需要打通行业内“部-省-市-区县”自上而下的垂直领域数据,又要横向打通跨行业部门“信息孤岛”。从顶层设计就要实时结构化信息互联互通,业务联防联动。

在今年防疫过程中,有几个企业助力疾控中心、医院建设疾病与监测预警系统值得参考。
 
比如,北京大数医达为南京市疾控中心建设的疾病与监测预警系统便直接打通连接了当地医院的电子病历系统(EMR)。这一疾控监测预警系统应用了大数医达最先进的大数据和人工智能技术,对医学知识图谱建立模型,再直接提取EMR进行语义结构化,由人工智能匹配知识库判断EMR中是否包含新冠肺炎等传染病的关键词。一旦被人工智能判断为疑似或者是高度疑似则上报疾控部门,避免医院因故遗漏或者迟报。
 
系统直接打通并连接到医院的EMR,作为省市疾控中心的上报分析、数据汇总及预警分析系统。它具有很细的颗粒度,除了40种法定传染病,也支持各地区自己补充当地认定的多发性传染病。同时,系统结合历史疾控数据进行学习,并结合区域密度和人口流动率等大数据,可以对疑似数据对传染病的发展速度及分布区域等进行预测,从而为疾控决策给出参考数据。
 
大数医达为江苏省承建的这套系统原本是为春季流感高峰而准备,没想在这次更加严重的新冠疫情中发挥了作用。根据统计,如果以疫情爆发的中心城市武汉为原点,沿着高铁线路画一条半径约为2小时的圆圈,可以清晰地看到各个地区疾控水平并不一样。相对而言,江苏省的新冠疫情控制的就比周边要好很多。
 
另外,也有企业试图解决医生在当下传染病报卡中的痛点。目前医院的传染病监测报卡系统不够智能、对医生的干预方案不够有效、医院传染病疫情管理部门对传染病迟报漏报筛查耗时耗力,长沙双数科技经过熟练的实践,认为这些痛点可以利用大数据解决。在长沙双数科技的传染病疾病智能监测解决方案中,首先汇集EMR、实验室信息管理系统(LIS)、医学影像存档和通讯系统(PACS)及医院信息系统(HIS)四大系统诊疗数据,再运用双数传染病专家知识库、语义分析技术,对诊疗数据进行传染病疾病相关特征提取、标记。其后,使用传染病疾病分析模型对特征进行分析比对,从而认知传染病。一旦认知到传染病病例,系统即时推送或延迟推送到具体医生电脑前端,并可强制锁死系统要求医生必须完成重要的传染病报告。
  
这一传染病智能监测解决方案还实现了关口前移,把疾控直报专网上报的校验逻辑全面前移到医生填写传染病报告的阶段。校验不过就完成不了上报,这样就有效解决了报卡完整性和准确性问题。医生完成报告传染病报卡后,数据完整准确的传染病报卡经医院传染病疫情报告人员审核后再上报至疾控直报专网,也解决了及时性的问题。在解决医生传染病报卡的基础上,双数科技进一步实现了从医院内网至疾控直报专网的一键直报功能。2017年5月,中南大学湘雅医院利用该系统实现了传染病报卡医院内网一键直报功能,耗时不到3秒。这在当时也是极个别可以实现内网直报的案例。目前除了湖南省的中南大学湘雅医院外,重庆医科大学附属儿童医院和贵州遵义医科大学附属医院均已采用内网一键直报的方案。根据统计,利用大数据和人工智能的双数传染病监测方案可以将杜绝迟报漏报的有效率做到95%以上;将医生的平均传染病报卡所耗时间从以往的5-8分钟大幅降低到40秒以内;疾控直报专网上报所耗时间也从2-3分钟缩短至几秒钟。
 
事实上,武汉大学中南医院也刚刚在去年采用双数传染病监测方案,并在后续的疫情报告效率上体现出了优势。不过,在突发性的未知传染病早期预警上,双数科技认为对单个医院的数据分析的结果、在说服力还是相对不足。相对而言,双数科技认为区域一体化传染病疫情预警监测方案是应对区域重大传染病最好的建设方案。目前,双数科技已经完成了区域一体化传染病疫情预警监测方案的研发,已经在其他省市加快部署计划,希望能为中国整体的传染病信息化进程探索新模式。
 
继这次新冠肺炎疫情之后,我国开始意识到建立突发公共卫生事件的全国性长效管理机制的重要性,多个省份纷纷出台疾控体系改革措施,强调要充分利用大数据、人工智能等新兴技术。比如今年7月,湖北省卫健委牵头起草了《关于改革完善疾病预防控制体系的实施意见》等4个配套文件。文件提出,湖北将建立以网络直报、舆情监测、医疗卫生人员报告、可疑病例讨论报告、科研发现报告、零售药店药物销售等信息为基础的多渠道监测预警机制。并且,下一步将实现健康相关数据的自动抓取,利用“大数据+网格化”等手段,开展精准流调,实施精准防控。探索健康相关信息与医保、农业、生态环境等部门相关信息的协同共享,运用人工智能、大数据、云计算等,在监测预警、病毒溯源、趋势预测研判、资源调配等方面发挥支撑作用。

二、大数据在西方国家疾病监测领域中的应用现状
 
有系统的疾病监测工作开始于本世纪40年代末的美国疾病控制中心(CDC)。1968年第21届世界卫生大会(WHA)讨论了国家和国际传染病监测问题。70年代以后,许多国家广泛开展监测,观察传染病疫情动态,以后又扩展到非传染病,并评价预防措施和防病效果,而且逐渐从单纯的生物医学角度发展向生物-心理-社会方面进行监测。
 
在医疗数据方面,由于美国、日本等很早就开启了诊疗数字化的进程,以帮助医护人员提升工作效率,降低工作强度,也因此积累了大量高质量的数据。比如美国的电子健康记录系统(Electronic health records,EHRs),十年内积累了1000万名病人的记录。其中包括疾病诊断记录、病人用药效果、基因数据、家庭病史等重要信息。2011年之后,日本医疗数据也已经全面采用电子化报送系统,个人可以通过网络随时查阅云端保存的各种医疗信息。
 
目前,发达国家已搭建较为成熟的健康医疗大数据平台,并在有效管理和技术升级上展开激烈竞争。美国拥有完整的医疗健康大数据库,建成覆盖本土的12个区域电子病历数据中心、9个医疗知识中心、8个医学影像与生物信息数据中心。英国斥资55亿英镑建设全国一体化医疗照护信息储存服务系统,收集和储存了超过23000个医疗信息系统数据,覆盖超过5000万居民医疗信息,并已为130万名医务人员提供服务。丹麦成立国家生物银行,集中和管理了超过700万生物样本,样品可经伦理委员会审批使用,供科研人员研究流行病学和疾病图谱。日本实施国立大学医院医疗信息远程传输网络系统计划,福山大学附属医院累计收集超过1700万病历记录和1.43亿件用药处方及300万件病名,可实现处方自动分析和匹配功能。
 
在利用大数据、人工智能实现疾病监测与预警方面,目前发达国家有多个成功案例,比如在新冠疫情大爆发之前,12月30日,波士顿儿童医院(Boston Children's Hospital)的自动健康地图系统就发布了中国境外首次有关这种新型冠状病毒的公共警报。这套系统就得益于人工智能技术自然语言处理的支持。通过扫描在线新闻、社交媒体报道和政府报告,寻找传染病爆发迹象的早期预警系统,并将预警的严重程度分为5级(新冠被定为3级),从而可以帮助WHO等在语言障碍可能出现的情况下率先洞察疫情。
 
放眼全球,2003年英国帝国理工学院研究人员基于SARS流行病学调查数据,构建传播动力学模型;2004年美国约翰·霍普金斯大学应用物理实验室的研究人员开发了基于社区的疫情早期监测与报告系统ESSENCE;2009年美国华盛顿大学基于美国H1N1疫情数据,建模构建了H1N1家庭和学校传播的流行病学参数(基本再生数和世代间隔)。现阶段,如WHO全球流感监测网络、谷歌流感趋势(Google Flu Trends),都是值得研究和学习的案例。
 
此外,在利用机器学习追踪病原体轨迹方面也有多项成果。比如美国卡里生态系统研究所就针对2000多种啮齿类动物建立了一套庞大的数据库,并训练AI认知它们的生活历史、生态环境、行为、生理特征和地理分布情况。并成功通过该模型,发现了超过150种新的潜在啮齿类动物和超过50种新的活跃型动物,可能携带多种病原体并传染给人类。由此,可以绘制出影响各种疾病的啮齿类动物分布,以及容易被新生寄生虫和病原体传染的热点地区,以便实现疾病的早期预警监测。
 
在追踪人流去向方面,不同于中国在应对新冠疫情时通过大数据+AI对重点人群进行行踪溯源预警,其他国家的AI主要表现为算法预防。比如英联邦科学与工业研究组织使用贝叶斯推理开发了Data61模型,用以追踪将昆士兰州登革热病毒是如何传播到澳大利亚,并如何在人与人之间转移。借助昆士兰州卫生局提供的15年内匿名记录的登革热病例来进行训练,Data61可以综合判断多种人员流动信息,比如航空公司乘客数据、地理标记、社交媒体、旅游情况等等,从而预测可能发生疫情的时间和地点,让医疗机构早做准备。据说,该模型还可以用于预测莱姆病、埃博拉和疟疾等人畜共生的疾病。
 
不过,尽管欧美国家更加长于算法,由于隐私法案的影像,欧美许多地区禁止采集公众信息,对人脸识别等前沿技术的使用也出台了相关限制,这在一定程度上保护了公众信息安全,而另一方面,由于社会智能化的防范与迟缓,也使其在面对大型公共卫生事件时,展现出了应对能力薄弱、救灾过程滞后、人员有限重复劳动等问题,在防疫效率上还有很大的提升空间。

三、当前健康大数据所面临的挑战
 
继大数据在抗疫过程中表现亮眼后,如今多个省份地区都将利用大数据、人工智能实现现代化疾控作为发展计划,可以遇见健康大数据将会快速应用到公共卫生领域,但同时也面临了诸多挑战:
 
1、健康大数据使用中的安全、保密、共享、开放等医学伦理问题

健康大数据不可避免地涉及人群的隐私信息,包括身体现状、健康史、个人信息、甚至基因、蛋白数据等。如若泄漏,极可能会使患者个体的日常生活受到难以预料的侵扰。2018年,《信息安全技术个人信息安全规范》中提出了保护个人信息安全应遵循的原则,但缺少针对医疗隐私保护的详细法律法规。而涉及到病人数据这类高保密级别数据,就对隐私保护、系统安全提出了更高的要求。
 
2、突破大数据的关键技术

如今,半结构化和非结构化的数据量在呈几何级数量增长,传统的分析技术面临着较大的冲击和挑战。数据的广泛存在性使得数据越来越多的以不同的形势散布于不同的系统和平台之中。为了便于进行健康大数据分析,需要解决数据的多源异构性、数据的质量问题,各方面产生的大数据有待进行有效整合。此外,数据信息孤岛问题始终普遍存在,标准化难以实施等技术和非技术困难尚未得到有效彻底地解决。
 
3、甄别健康大数据中的使用误差,提高精度

大数据疾病预警也有可能产生“大错误”,它就如同汽车报警器一样,既容易触发,也容易被忽略。一个主要的原因是,不同机构、不同平台的数据都可能会阻碍算法。哈佛大学(Harvard University)流行病学家Andrew Beam表示,扫描在线报告中的关键词有助于揭示趋势,但准确性取决于数据的质量。比如谷歌就高估了AI对流感的流行程度,偏差超出了实际值的50%。最后在2015年关闭了该网站,并将其技术交给了HealthMap等非营利组织。
 
4、健康大数据框架应有顶层设计

一直以来,公共卫生与预防学学科强调“三级预防”,但作为政府行为的“零级预防”非常关键。从星罗云布的大数据中通过分析快速获得有效信息,并及时为公共卫生决策提供依据,是一项基础、长远的工作,需要政府层面的长期鼎力支持。健康大数据框架需要国家层次进行顶层设计,担负相应责任。政府可以加强科学引导,开放平台邀请更多社会资本参与,整合力量共建国家健康大数据研究中心。
THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业疾病防御疾病监测大数据
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

大数医达机构
暂无评论
暂无评论~