Eric J.Topol作者Panda编译

结合人工智能的高性能医学:现状、挑战与未来

医疗领域存在一些长久以来的弊病,现在很多人相信人工智能技术有望为这些问题带来根本性的解决方案。近日,Nature Medicine 发布了斯克里普斯研究所(Scripps Research)Eric J. Topol 的「高性能医学」综述论文,文中认为医学领域内 AI 的发展目标是人类智能与机器智能的结合。

有标注大数据的使用以及显著提升的计算能力和云存储实现了人工智能在各行各业的应用,尤其是其中的深度学习子类别。在医学领域,人工智能开始在三个层面产生影响:临床(主要是通过快速、准确的图像解读)、健康系统(通过改善工作流程和降低医疗错误的潜力)、病人(让他们能处理自己的数据,从而提升健康状况)。本文也将会讨论当前的局限性(包括偏差/偏见、隐私和安全、缺乏透明)以及这些应用的未来方向。随着时间的推移,准确度、生产力和工作流程方面很可能能够实现显著的提升,但这会被用于改善医患关系还是导致其恶化,这一点还有待观察。

医学位于两大主要趋势的交叉口。第一个趋势是业务模式的失败——虽然与医疗保健相关的支出和工作岗位都在增加,但关键的结果却每况愈下,包括美国预期寿命下降以及较高的婴儿、儿童和孕产妇死亡率。这体现了一个悖论,一个并不仅限于美国医学界的悖论:投入更多人力资本却得到了更糟糕的人类健康状况。第二个趋势是数据正大规模地生成,其来源包括高分辨率医疗成像、具有持续的生理指标输出的生物传感器、基因组测序和电子病历。仅靠人类很显然已经难以分析这些数据,也就必须增加对机器的依赖。因此,为了提供医疗保健,在对人类的依赖超越以往的同时,我们也迫切需要算法提供帮助。然而,在医学领域,人类与人工智能(AI)的整合才刚刚开始。

从更深层次看,医疗保健领域存在显着的长期缺陷,正是这些缺陷导致其回报越来越低。其中包括大量严重的误诊、治疗方法错误、资源的极大浪费、低效的工作流程、不平等、患者和临床医生之间时间不足。带着改善这些问题的渴望,医疗行业的领军者与计算机科学家声称 AI 也许能帮助解决所有这些问题。也许最后确实会如此,但研究者才刚刚开始使用神经网络来改良医疗实践中的弊病。在这篇回顾中,我收集了很多在医学领域使用 AI 的已有证据,并列出了其中的机会和陷阱。

临床医生使用的人工智能 

几乎每种类型的临床医生(从专科医生到护理人员)未来都将会使用 AI 技术,尤其是深度学习。这很大程度上涉及到使用深度神经网络(DNN)的模式识别,这可以帮助解读医疗扫描结果、病理切片、皮肤病变、视网膜图像、心电图、内窥镜检查、面部和生命体征。我们通常使用一种真阳性与假阳性比率的图表(被称为受试者工作特征曲线(ROC))来比较神经网络的解读结果与医生的评估,使用该曲线下的面积(AUC)来表示神经网络的准确度水平。

  • 放射科

  • 病理学

  • 皮肤科

  • 眼科

  • 心脏病学

  • 消化内科

  • 心理健康 

表 1:与医生比较的经过同行评议的 AI 算法论文

表 2:美国食品药品监督管理局(FDA)正在加速审批 AI

人工智能与健康系统 

理论上而言,预测关键性结果的能力能让医院更有效和更准确地使用姑息疗法。

使用电子病历数据,机器学习深度学习算法可以预测很多重要的临床参数,涵盖阿尔茨海默病到死亡等许多情况。

表 3:这里选择性地展示了一些用于预测临床结果和相关参数机器学习深度学习算法

除了电子病历的数据,也可以使用影像来提升预测准确度。有多项研究试图预测生物学年龄,而结果已经表明使用基于 DNA 甲基化的生物标志物来完成这一任务是最佳的。

人工智能与患者 

深度学习算法的发展让公众可以将自己的医疗保健掌控在自己手中,但这方面的工作目前落后于临床和健康系统。这类算法中有一些已经获得了 FDA 的批准,正处于后期临床开发阶段。

图 2:AI 在人类生命周期中的应用实例。dx 表示诊断;IVF 表示体外受精;K+ 表示血钾水平


研究者也在寻求通过 AI 借助智能手机完成一些医疗诊断,其中包括皮肤病变和皮疹、耳部感染、偏头痛和视网膜疾病(比如糖尿病性视网膜病变以及与年龄相关的黄斑变性)。

科学家也在研究如何整合有关人体健康状况的多模态数据。最终,当可以整合一个个体的所有数据与医疗文献语料库时,就有可能实现全面系统的预防方法。

图 3:使用多模态数据输入和算法的虚拟医疗教练模型,能够提供个性化的指导。使用来自个体的全面输入的虚拟医疗教练经过深度学习后,可以为人们提供保持健康的建议。

人工智能数据分析 

在临床实践的上游,生命科学领域内的 AI 进展明显要快得多,也有广泛的有同行评议的出版物,这是在没有监管监督时更容易验证的道路,而且科研界有远远更强的实现意愿。正如听诊器是医生的标志一样,显微镜是科学家的标志。科学家目前正在研究一些「无图像的」显微方法。除了改进无图像显微方法和细胞分析,深度学习人工智能也已被用于恢复或修复失焦图像。而且计算机视觉也已经帮助实现了单个细胞内的 40-plex 蛋白质和细胞器的高通量评估。

研究者也在使用 AI 工具来提升对癌症演化方式的理解——他们将一种迁移学习算法用在了多区域肿瘤测序数据上,将计算机视觉用于通过微流体隔离的在单个细胞分辨率上的活体癌细胞分析。

既然我们已经在用「神经网络」描述 AI 了,那么生物神经科学与人工智能互相提供灵感也就不足为奇了。

AI 已被用于重建神经回路,能让我们根据电子显微成像理解连接组。AI 带来的一个最激动人心的进展是理解人类大脑的网格细胞。反过来,神经形态计算(通过对大脑逆向工程来研发计算机芯片)不仅能实现更高效的计算,还能帮助研究者理解大脑回路和构建脑机接口。使用迁移学习算法实现人类和动物行为的机器视觉跟踪是另一个正在进行中的进展。

AI 正在多个层面上改写药物发现的方式,包括对生物医学文献的复杂的自然语言处理搜索、对数百万分子结构的数据挖掘、设计和制作新的分子、预测脱靶效应和毒性、预测实验药物的合适剂量以及进行大规模的细胞检测分析。

局限和挑战 

尽管 AI 技术有望实现所有这些成就,但也存在艰巨的障碍和陷阱。AI 当前的炒作热潮已经远远超出了 AI 科学的当前现状,尤其涉及到病患护理中的实现的验证和可读性时。IBM Watson Health 的癌症 AI 算法(被称为 Watson for Oncology)就是近期的一个案例。这个算法已被全球数百家医院用于为癌症患者推荐治疗方法,但该算法却基于少量合成的、非真实的案例,仅有非常有限的肿瘤专家的输入(真实数据)。实际输出的很多治疗方法建议都被证明是错误的,比如建议严重出血的患者使用贝伐珠单抗(Bevacizumab),这是一种明确的禁忌症状和该药物的「黑箱」警告。这个例子说明有缺陷的算法有可能会给患者造成重大的伤害,导致医疗事故。不同于一位医生的错误只会伤害到一位病人,机器算法有可能带来巨大的医源性风险(iatrogenic risk)。因此在将 AI 算法用于医疗实践时,需要进行系统性的调试、审计、广泛的模拟和验证以及前瞻性的审查。还需要更多证据和稳健的研究以达到 FDA 近期已经降低了的审批医疗算法的监管要求。

有关算法的黑箱的内容已被写了很多,围绕这一主题的争论也有很多;尤其是在 DNN 的情况中,我们有可能无法理解输出的决定因素。这种不透明带来了可解释性需求,比如,欧盟的《一般数据保护条例》要求在将算法用于患者护理之前需要有透明性——打开算法的黑箱。尽管是否可以接受为患者护理使用不透明算法的争议尚未解决,但仍需指出医学实践的很多方面都是不可解释的,比如在不知道作用机制的前提下的药物处方。

不平等是现今最重要的问题之一,尤其是在美国,也就是医疗护理并不向所有公民提供。大家都知道社会经济地位是过早死亡的一个主要风险因素,有产者和无产者对 AI 的不成比例的应用可能拉大两者之间的现有差距。这种已经存在的不平等之所以会加大,一个原因是现今很多算法中嵌入的偏见,这又源自于数据集中缺乏对少数群体的覆盖。比如,有的诊断黑素瘤的皮肤科算法没有覆盖不同肤色以及使用基因组数据语料库,这样的算法在代表性不足的少数群体上存在严重问题。尽管有人认为算法偏见还比不上人类偏见,但仍然还需要很多工作以消除嵌入的偏见,也需要争取让医疗研究提供真正有代表性的人口情况。

AI 在医学领域的未来的一个最重要问题是能在确保数据的隐私和安全上做到多好。鉴于普遍存在的黑客攻击和数据泄露问题,人们将不会有什么兴趣使用有风险泄漏患者病历细节的算法。此外,也存在故意攻击算法以造成大规模伤害的风险,比如为糖尿病过量使用胰岛素或刺激除颤器在心脏病患者的胸腔内放电。通过人脸识别或基因序列从大规模数据库中识别个人身份的可能性正越来越高,这又会进一步阻碍对隐私的保护。与此同时,生成对抗网络也可能模糊真相,几乎有无限的操纵内容的可能性,从而可能对健康非常不利。我们需要新的个人健康数据所有权模式、高度安全的数据平台和政府立法(正如爱沙尼亚已经实现的那样),这样才能应对迫在眉睫的安全问题,否则 AI 在医疗领域的发展就会遭遇阻碍或失去机会。

考虑未来 

我在这篇回顾中强调的一个关键点是将 AI 带入医学领域的故事才刚刚开始。对于机器能够执行的帮助临床医生或对健康系统有用的预测临床结果的任务,前瞻性的验证真的非常少,对于以用户为中心的算法就更少了。这个领域的承诺确实很多,而数据和证明相对较少。错误算法的风险极大高于单个医生-病患交互的风险,但是降低误差、低效和成本的回报也很大。因此,医学领域的 AI 不能有例外——在患者护理中推出和实现之前,它需要严格的研究、在有同行评议的期刊上发表结果以及在真实世界环境中的临床验证。

图 4:呼吁医学领域中 AI 研究应有正当的程序。在患者护理中实现之前,必需先在有同行评议的期刊上发表结果,在真实世界医学场景中验证。

有了这些警告,对 AI 最终将如何整合进来要有合理的预期,这一点也很重要。现今有一种广泛的炒作,说是医生会被机器取代,我们可以将其与现实测试的自动驾驶汽车模型类比看看。大多数人都同意自动汽车是到目前为止 AI 最顶尖的技术成就,但「自动」一词颇具误导性。汽车工程师协会(SAE)已经定义了五个自动化层级,其中第 5 级表示在所有情况下都完全由汽车控制,人类没有任何可能性作为后备或接管汽车。现在普遍认为这种定义的完全自动化很可能永远无法实现,因为某些环境或道路条件会使得我们无法安全地使用这种车辆。基于同样的原因,医学可能永远无法突破第 3 级,这是一种有条件的自动化,因为其中肯定需要人类来监管算法对图像和数据的解读。很难想象在治疗病人时仅有非常有限的人类后备(第 4 级)。人类的健康太宝贵了——除了风险极小的日常事务之外,还远远不能将其托付给机器。

图 5:自动驾驶汽车与医学自动化的类比。第 5 级是不存在人类医生作为后备可能性的完全自动化,这不是目标。第 4 级是仅在非常有限的条件下使用人类备份,这也不是目标。目标是协同,将机器做得最好的功能与那些最适合临床医生的工作结合起来。

激动人心的发展就在前方,但可能会比很多人预测的更远——软件将快速、准确和低成本地消化和有意义地处理大规模数据,机器将有能力实现人类无法看到或做到的事情。这一能力最终将成为高性能医学的基础,这是真正由数据驱动的,能减轻我们对人类资源的依赖,并最终将让我们超越人类智能和机器智能单纯相加之和。在生物医学领域和发现中已经实现的进展在被接受和广泛实现方面遇到的挫折要小得多,这些上游进展将引领这一人机共生。

原文链接:https://www.nature.com/articles/s41591-018-0300-7

理论医疗Nature
3
相关数据
高通机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

假阳性技术

假阳性是指模型因为种种原因把不应该分类成特定情况的人/物错误地分类到了该分类的情况。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

逆向工程技术

逆向工程,又称反向工程,是一种技术过程,即对一项目标产品进行逆向分析及研究,从而演绎并得出该产品的处理流程、组织结构、功能性能规格等设计要素,以制作出功能相近,但又不完全一样的产品。逆向工程源于商业及军事领域中的硬件分析。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

受试者工作特征曲线技术

接收者操作特征曲线是一种坐标图式的分析工具,主要在信号处理、机器学习、医疗诊断等领域中使用,用以测试2值输出的分类模型。其主要是 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。 该曲线就是以假阳性概率(False positive rate,又称误诊率)为横轴,真阳性率 (True positive rate,又称灵敏度) 为纵轴所组成的坐标图,和测试模型在特定数据集由于采用不同的判断阈值得出的不同结果画出的曲线,曲线中每一点代表一个被测模型。根据该曲线,设计人员可计算ROC曲线下的面积(The area under the ROC curve (AUC) )。因为分类模型要比随机分类要好,此AOC面积通常大于0.5, 以此工程人员通常选择AUC面积较大作为参考设置最佳的阈值(但有时也不一定,依据不同应用而定)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

神经形态计算技术

神经形态工程也称为神经形态计算,是Carver Mead在1980年代后期开发的一个概念,描述了使用包含电子模拟电路来模拟神经系统中存在的神经生物学结构的超大规模集成(VLSI)系统。 近来,神经形态(Neuromorphic)一词已被用于描述模拟、数字、混合模式模拟/数字VLSI以及实现神经系统模型(用于感知,运动控制或多感官集成)的软件系统。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~