王艺撰文

一文看尽当下医疗AI现状——前景虽远大,但连数据关都过不了

前段时间《流感下的北京中年》一文热传,作者用 2 万 6 千字复现了岳父从流感到肺炎、从门诊到 ICU、29 天阴阳两隔的经历。

尽管作者笔下描绘的是客观的就诊细节,但朋友圈广泛转发的背后,是人类面对疾病时的恐慌与无能为力。

在当前的医疗环境下,「大病」二字犹如挂在腰间的炸弹,拥有足以摧毁一个家庭的威力,且随时都有可能被引爆。

如今,人工智能技术被广泛应用在各行各业,医疗健康领域更是重要应用场景之一。据统计,到 2025 年,世界人工智能市场总值将达到 1270 亿美元,其中医疗行业将占市场规模的 1/5。

业界认为,在医疗水准的提升、医疗资源的下沉等方面,人工智能将是一味济世良药。

在这样的大背景下,「人工智能」这味药能解决什么问题、怎样用、什么时候才能用、为什么现在还不能用就成为了非常值得探讨的话题。

3 月 22 日,在一个于上海召开的关于医疗人工智能创新应用的沙龙上,我们得到了一些专家的看法。概括说来,现在的医疗人工智能正处于「前景广阔,前进艰难」的状态,同时也已经有一些应用正在落地。

本文中,我们整理了各位专家的意见,希望能从一定程度上概括当前医疗人工智能产业的面貌。

总的来说,人工智能在医疗领域的应用可以分为六个细分领域——虚拟助理、病历与文献分析、医疗影像辅助诊断、诊疗结果预测、药物研发、以及基因测序。在本次沙龙中,专家的探讨主要集中在前四个领域。

虚拟助理——问答还谈不上,只能做选择题

大体来说,医疗领域的虚拟助理和普遍意义上的虚拟助理在任务目标上是相同的——通过人与机器之间的对话解决一些问题。然而,仔细说来,也有所不同。

医疗虚拟助理的官方定义是,利用语音识别、自然语言处理技术,将患者对自己病症的描述与标准医学知识库进行对比,从而完成患者自诊、导诊、咨询等服务的信息系统。

与 Siri、Cortana 等通用虚拟助理不同的是,当用户与通用虚拟助理进行对话时,可以自由表达,由虚拟助理理解用户意图(当然理解能力还有待加强);但当用户与医学虚拟助理对话时,由于患者的描述基本不是标准的医学术语,因此很难与标准医学知识库进行对比从而得出结论。

「目前,医疗产业界的普遍做法是,以选择题的方式与用户沟通,了解问题并分诊。」来自中国信息通信研究院的赵阳光介绍道,「目前科大讯飞的一些产品在某些医院已经实际落地使用了。」

赵阳光是中国信通院互联网医疗联盟人工智能工作组的组长,也是联盟近期发布的《医疗人工智能技术与应用白皮书》的牵头人。

上海森亿医疗科技有限公司专注于人工智能与医疗的结合,CEO 张少典介绍了森亿的医疗虚拟助理产品。「我其实不愿意把我们的产品称作聊天机器人,它其实是一个搜索引擎。我们做技术的人其实都知道聊天机器人的水平怎样。」张少典说。

森亿与上海市第一妇婴保健院和上海儿童医学心脏中心都开展过合作,进行人工智能虚拟助理的尝试。其解决方案是在识别病人的问题后,向病人推送来自专家知识库的内容,并给出答案的出处。

「这个东西的用处在哪里?」张少典说,「当患者有问题时,普遍会遇到不相信百度但是又找不到专家的情况。那有了这样一个虚拟助理,它给你的答案都是专家写的文献,能够起到一定的作用。」

病历与文献分析——帮助医生提高效率

提到人工智能与医疗的结合,最常见的要数医生通过语音输入电子病历。面向医疗场景的语音输入技术已经成为科大讯飞、云知声等人工智能公司的抢滩重地。

「语音输入技术解放了医生的双手,这对牙科医生来讲尤其重要。」赵阳光说,「口腔科医生在手术台上往往是一个人,双手都被占用了,没有手来书写病历。用语音识别的方式能够对患者的基本信息、手术情况进行一些基本的记录,提高医生工作效率。」

在解放医生双手的同时,电子病历也起到了医疗人工智能发展的数据基石作用。在语音识别层面之下,如何利用自然语言处理技术将非结构化的自然语言转化为结构化的数据,以便后续进行数据挖掘,是一个重要课题。

张少典介绍道,利用自然语言处理技术将病历上的非结构化数据转变成结构化数据主要分为以下几个步骤。

首先,要对句子中的命名实体进行识别,简单地说就是哪些词是疾病、哪些词是药品、哪些词是症状、哪些词是手术名,也就是对各种各样词语类别的分类。

然后,需要查找语义之间的关联,也就是说谁修饰了谁、谁约束了谁、谁否定了谁等,也即定义词语和词语之间的线性关系。

「语义关联为什么在医疗领域尤其重要?」张少典说,「比如你光知道这个人疼,不够。你还要知道疼痛的部位、严重程度、时间、急慢性等附属信息,这些信息才是重要的。」

在医疗领域的自然语言处理技术中,常常需要面对输入不标准的情况。每个医生都有自己的病历书写习惯,比如心肌梗塞这一种疾病,有的医生会写心肌梗塞,有的医生会写心肌梗死、心梗,甚至写英文 MI(Myocardial Infarction)。

对于机器来说,在存储时必须知道这些词代表着同样的意思,后续的工作才能进行。「否则就连一个最简单的检索任务都进行不了,因为关键词没法匹配。」张少典说,「另外,自然语言处理技术还能够帮助医生提高科研效率。要知道,科研是中国医生很强烈的刚需。」

在做科研之前,需要进行大量的文献查找工作。复旦大学附属华山医院信息中心主任黄虹认为,人工智能在医疗领域应用的第一步,可以从医生查找文献开始。

她介绍道,由于医生时间紧张,很多时候查找文献的工作是交由研究生来做。虽然现在有数据库可以查找,不用跑到图书馆翻阅纸质资料,但文献查找仍是一件工作量很大的任务。

黄虹举了这样一个案例,当科研人员在进行一个与儿童残疾相关的研究时,需要翻阅约 33000 份摘要,人工查找耗时耗力,引入机器学习技术后,效率大大提高。

「现在医生做科研,很大一部分时间都花在了数据的收集和结构化上。」张少典说,「也就是说你要找病历、翻病历,然后从病例中抓取你需要的信息。利用自然语言处理技术,能够把这个过程尽量自动化。」

「这件事情与临床可能关系不大,但是对医生来说说是非常重要的。」黄虹说。

医疗影像辅助诊断——减少误诊漏诊率

「传统医疗行业存在结构上的弊病。」赵阳光说。

他认为,当前医疗资源的分配呈倒 2-8 结构,也就是说,病人全部集中在三甲医院,导致三甲医院的医师只有 20% 的时间处理疑难杂症。而事实上,80% 的普通疾病是可以去基层医院就诊的。

为什么病人无论大病小情都一定要去三甲医院?本质上是出于对基层医院的不信任。也就是说,由于优质的医师资源难以下沉,导致病人就算是没有床位,住在走廊里,也一定要去三甲医院就医。

这在赵阳光看来,是医疗人工智能比较典型的应用场景之一。「比如糖尿病引起的视网膜病变,是非常适合在基层做的。」他说。

眼科设备专业的要十几万,进口的要上百万,让基层医院去采购这么多专业设备是比较困难的。但同时,眼底也是众多器官中比较特别的一个,医生能够直接看到眼底的血管表现,这就给人工智能技术的应用提供了一个突破口。利用人工智能技术,基层医院能够实现一些早期的筛查工作,也就是现在大热的「分诊医疗」。

除向基层医院分诊外,有专家认为,向病患个人分诊也是未来非常有前景的一个研究方向。「不只是医院才能诊断,自我诊断也非常重要。」黄虹说。

黄虹以人群中发病率较高的肢端肥大症为例,阐述了自我诊断的重要性。

肢端肥大症,顾名思义,患者症状为手脚生长过大,这是一个由于生长激素异常分泌导致的的疾病。目前很多肢端肥大症病人是在症灶积累到一定阶段,有明显表现时才到医院就诊。但事实上,肢端肥大症的早期诊断只需一个能够进行人脸以及肢体扫描的 APP 就能完成。

「在病人的早期阶段,通过对其面部、腹部、臀部、手部等数据进行分析,是很容易做到早期筛查的。」黄虹说。

在癌症的早期筛查方面,人工智能的影像学技术能够帮助医生降低误诊、漏诊率,且已经非常成熟。赵阳光提到,当前放射科的误诊率和漏诊率相加高达 40%。这也是为什么癌症、恶性肿瘤的确诊需要多个医师联合给出意见。

「放射科医生工作压力大,拍一次序列影像会产生很多张片子,用人眼观察很容易漏诊,图像识别技术能够对医生的诊断提供给比较好的补充。」赵阳光说。

用图像识别的方式进行早期筛查是非常有意义的。以食管癌为例,2015 年我国新发食管癌人数为 47.7 万。对于食管癌来说,早期治疗非常关键。早五年治疗食管癌,患者生存率为 90%,晚五年,生存率就是低于 15%。

赵阳光介绍道,人工智能与医疗影像结合的具体做法如下:首先从放射科提取图像;然后利用图像分割技术提取图像有意义的区域;再利用一些图像识别方法对图像进行预处理,突出图像中有效的信息;然后利用算法提取病变区域;最后将这些数据交给模型进行训练。

经过训练之后,再给模型一个新的图片,模型就能够自动标记出病灶的位置。

理想很丰满,然而现实很骨感。「大家也都知道,辅助诊疗这件事情,产品化落地是非常复杂的。」张少典说,「它牵涉到医院的治疗流程、医生的习惯、医生本身的接受度、医疗行业的接受度,以及伦理、法律等相关的很多问题。」

诊疗结果预测——提早预估风险

人工智能的辅助诊断并不仅仅体现在医疗影像方面,在诊疗结果的把控方面也已经有所应用。

张少典介绍了两个案例。第一个案例是森亿与上海儿童医学中心的合作,针对小儿先天性心脏病,在术前确立最佳的诊疗方案。

「我们的系统能够建立包括手术、麻醉、体外循环等在内的一套最佳的治疗方案,还能够预测病人术后的出血风险、出血量、在 ICU 的停留时间、以及术后综合症的风险等。」张少典介绍道,「当医生需要更改手术方案的参数时,系统还能自动计算参数修改后这几个风险因素的变化。」

「其实我们的系统功能类似于 IBM Watson。但是 Watson 是舶来品,用的是外国人的数据集。我们用中国的本地数据,更符合中国患者的身体特征。」目前这一系统的前期模型已经训练完毕,森亿正在寻找合作医院尝试落地。

除小儿先心病的诊疗系统外,森亿还利用福州 37 家市级医院的数据训练了一个关于抗凝疗法的风险预测模型。

「在抗凝治疗做完之后,有的病人会再栓塞,有的病人会出血。对于不同病人来说,术后可能出现的情况是完全不一样的。」张少典说。森亿的系统所做的,就是预测抗凝治疗后病人不同反应发生的风险。

黄虹认为,在利用人工智能进行诊疗方案制定的同时,需要界定什么是「好的」诊疗方案。「临床上最好的方案不代表对这个病人就是最好,」黄虹说,「有一种说法是,你到底选择有尊严的死去,还是选择没尊严的活着。」

黄虹认为,由于每一个病人的家庭情况不同,支付能力、宗教信仰等不同,治疗方案也可能不同。因此,今天的人工智能技术不应该仅停留在影像学、组织学、以及患者病史本身,还需要整合社会数据,才能让最终的方案更加贴合实际。

数据对医疗 AI 的一万种阻碍

当前医疗人工智能面临的首要问题,还停留在数据层面。

「不管终端应用是什么,数据是基础。」张少典说。「数据问题不是技术上的问题,而是体系上的问题。」

张少典提到,美国的医疗人工智能产业界已经有一些比较成功的案例,而中国目前却没有。反思来看,与数据有很大的关系。「国内医疗机构大体上还处于比较分散的状态,数据标准化、结构化程度都很低,并且相对不完整,医院之间的互联互通做的也不好。」他说,「你没有办法取得一个病人全面的历史数据。」

拥有 2800 名 IT 人员的美国梅奥医院在医疗人工智能领域已经取得了一些成果。「我上个星期在梅奥交流的时候,发现整个梅奥体系加起来只有 1200 张病床,这个体量放在中国不算大。据我所知,上海瑞金医院就有 1600 张左右的床位。」张少典说,「但是当对比梅奥的 1200 张床位和我们 1600 张床位所采集到的数据最后训练出来的人工智能系统的效果时候,你会发现二者根本不在一个数量级上。」

这意味着,数据多并不一定能成就好的人工智能,高质量高价值的数据才能训练出好的人工智能。

「现在很多手术都是在内窥镜下操作,比如胆囊炎、胆囊结石等。实际上医生在手术时采集到的镜像数据,都是要靠医生自己用一个硬盘搬运的,其实现在的医疗系统远没有实现动态的数据共享。」黄虹说。

赵阳光认为,目前业界对数据标准的需求度比对数据的需求度还要大。

人工智能模型是建立在硬件采集数据的基础上的,以 CT 设备为例,市面上主流的 CT 设备厂商有 7-8 家,然而现在基本所有与 CT 相关的模型都是针对一套设备构建的,若想将模型移植到其它医院其它设备上,需要重新对模型进行训练,进而成为阻碍人工智能技术在行业广泛应用的瓶颈。

另外,赵阳光还提到,采集数据的过程中,医师的手法也会直接影响到模型的效果。以心电图为例,有时,医生需要患者佩戴心电检测仪器 24 个小时,以监测患者心率的动态表现。

这时,患者是如何佩戴设备的、导线连接的位置、甚至患者的胖瘦都会影响最后的监测结果。但是患者离开医院后,这 24 小时的佩戴情况对医生来说是不可见的。这一过程医生没有办法控制,那么训练数据就更是无从使用。

另外,在病理、心电等领域,各厂商基本都是遵循自己私有的数据格式。赵阳光认为,业界需要主动将私有格式向公有格式进行转化,才能积累对神经网络来说可用的数据。

「我相信做人工智能的技术人员都很清楚,有了好的数据之后,算法真的不是特别复杂的事情。」张少典说,「不管你是从事人工智能、数据分析、还是数据挖掘,其实至少有 80% 的时间是花在数据清洗上的。」

除数据问题外,人工智能在医疗行业的落地还存在模式和制度的问题。「当前人工智能产品若想以销售的方式卖给医疗机构,无论从资质还是产品的分类方式来讲都是难以实现的。」赵阳光说,「对于这些人工智能产品来说,未来通过医院科研课题的方式落地是比较可行的。」

另外,赵阳光还提到法律问题。若医疗人工智能系统诊断失误导致患者死亡,那么谁该承担这个责任?就像不久前在无人驾驶领域发生的 Uber 车祸案一样。

「现在医疗器械有 2 类和 3 类的分类,如果人工智能被划分到 3 类的话,就需要给出严格的临床验证,国家在这一方面还是非常重视的。」赵阳光说。

始于足下的千里之行

医疗人工智能才刚刚起步,面向未来,还有很多问题需要解决。

例如,在医疗影像方面,目前业界的做法是仅针对图像进行分析,没有进行多模态融合。「未来一定要通过多模态的方式进行分析,」赵阳光说,「要结合患者的多种信息,例如临床信息、随访病历信息等,形成一个综合的多模态的系统。」

另外,尽管目前人工智能影像技术已经能够实现 4-6mm 微小的结节诊断,在一定程度上已经体现出较好的敏感性。但是未来,在结节诊断方面,业界需要考虑的不止大小这一个因素,还需要能够识别包括根源、突刺、分裂、钙化等其它的特征。

还有,目前的医疗人工智能系统缺少历史回顾性分析。也就是说,仅针对单一影像进行诊断,缺少时间维度的数据。对于例如脑梗等疾病,不同时间点的影片对于入日后的治疗方案确定非常重要。

以及,当前我国病理医师存在约 10 万名的缺口,且培养一个病理医师的周期很长。这个短时间内无法解决的问题亟待通过人工智能技术进行缓解。

然而,病理影片比目前医疗人工智能所涉及到的 CT、核磁共振等影片大太多。在上亿像素的图像中寻找微小的病变区域,对算法和算力无疑都是一种挑战。加之病理诊断不仅仅需要观察局部特征,还需要联合整体特征共同分析,因此挑战更大。

此外,黄虹还提到了脑机接口、靶向治疗、个体化用药等工作,都是人工智能未来发展的重要阵地。可以看到,对于医疗人工智能来说,一切才刚刚开始。目标是明确的,前景是光明的,道路也是漫长的。

产业
3
返回顶部