Andre Esteva、Katherine Chou等作者魔王、小舟编辑

CV技术在医疗领域中有哪些应用?Salesforce、谷歌、斯坦福综述文章登上Nature子刊

计算机视觉在医疗领域得到了广泛应用,如医学影像处理等。

最近,来自 Salesforce AI 研究院、谷歌、斯坦福大学等机构的研究人员合作撰写了一篇文章,综述了基于深度学习计算机视觉技术在医疗领域中的现状与应用。该论文发表在 Nature 旗下期刊 npj Digital Medicine 上。


机器之心选取文章的部分内容为大家展开介绍。



论文地址:https://www.nature.com/articles/s41746-020-00376-2#Sec6


摘要


十年来,人工智能取得了前所未有的进展,包括医学在内的许多领域都有望从中受益。在该论文中,研究者调查了以深度学习为支撑的现代计算机视觉技术在医学领域的最新进展,重点包括医学成像、医疗视频和临床部署。


该论文首先简要概述了卷积神经网络的十年进展,包括它们在医疗领域中实现的视觉任务。接下来,论文讨论了一些有益的医学成像应用示例,涉及心脏病学、病理学、皮肤病学、眼科医学,并为后续研究工作提出了新的方向。此外,研究者还介绍了医疗视频,重点介绍了如何将临床工作流程与计算机视觉结合来改善医疗效果。最后,论文讨论了在现实世界中部署这些技术面临的挑战和障碍。


图 1:医疗领域中的计算机视觉任务示例。


计算机视觉


目标分类、定位和检测分别是指识别图像中的目标类型、确定目标所在位置,以及同时确定目标的类型和位置。过去十年,ImageNet 大规模视觉识别挑战赛(ILSVRC)是促成这些任务进步的先锋。它创建了一个由深度学习研究人员组成的大型社区,社区中的研究者相互竞争和合作以改进各种 CV 任务的技术。


2012 年,首个使用 GPU 的现代 DL 方法成为该社区发展的拐点,它预示着该领域接下来几年的显著进展,直到 2017 年 ILSVRC 竞赛举办了最后一届。值得注意的是,在此期间,分类准确率已经达到了人类级别。在医学上,这些方法的细粒度版本已成功用于许多疾病的分类和检测,如下图 2 所示。


图 2:医师级别的诊断性能。


医学成像


近年来,使用计算机视觉技术处理静态医学成像的论文从数百篇增长至几千篇。其中,放射学、病理学、眼科医学和皮肤病学等几个领域受到了广泛关注。


医学影像的独特特征给基于 DL 的计算机视觉提出了许多挑战。例如,图像可能非常庞大,数字化组织病理学图像可以产生约 100000 x 100000 像素的千兆像素图像,而典型的 CNN 图像输入约为 200 x 200 像素。


目前已有数十家公司获得美国 FDA 和欧盟 CE 的医学成像 AI 批准。随着可持续商业模式的建立,商业市场已经开始形成。例如,印度和泰国等地欢迎部署糖尿病性视网膜病变筛查系统等技术。如今这种快速发展已经达到了直接影响患者治疗效果的地步。


心脏病学


心脏成像越来越广泛地应用于临床诊断等流程中,深度学习的关键临床应用包括诊断和筛选。心血管医学中最常见的成像方式是心脏超声或超声心动图。作为一种经济高效的无辐射技术,超声心动图因其直接的数据采集和解释功能而特别适合应用 DL 技术,它常被用于急诊住院设施、门诊中心和急诊室中。


病理学


病理学家在癌症的检测和治疗中起着关键作用。病理分析(基于显微镜下组织样本的目视检查)本质上是主观的,视觉感知和临床训练的差异可能导致诊断和预测意见不一致。


DL 可以支持很多重要的医疗任务,包括诊断、预测病情和治疗效果、疾病监测等。


近年来,医疗领域已经采用了亚微米级分辨率的组织扫描仪,该仪器可以捕获千兆像素的全视野数字切片(whole-slide images ,WSI)。这种发展和计算机视觉的进步促成了 AI 驱动的数字组织病理学的研究和商业化活动。该领域具有以下潜力:


通过提高日常任务的效率和准确性来克服人类视觉感知和认知的局限性;

从人眼看不见的形态结构中开发出疾病和治疗的新特征;

将病理学与放射学、基因组学和蛋白质组学测量结合起来,以改善诊断和预测效果。


皮肤病学


皮肤病学中 DL 的关键临床任务包括特定于病灶的鉴别诊断、在良性病灶中发现与病灶有关的问题,以及帮助跟踪病灶随时间的增长。一系列研究表明,CNN 在归类良性与恶性皮肤病变时的性能可以媲美皮肤科医生。这些研究依次测试了越来越多的皮肤科医生,并且始终展示出匹配甚至超过医师水平的分类敏感性和特异性。但这些研究很大程度上局限于二分类任务,如鉴别良性与恶性皮肤病变。


最近,这些研究还包括了对数十种皮肤病的诊断,包括非赘生性皮肤病(如皮疹),其分类器输入还囊括了非视觉元数据(如病人的人口统计特征)。


将这些算法集成到临床工作流程可以使其支持其他关键任务,包括对具有多个病灶的病人进行大规模恶性病变检测等。这一领域仍待探索。



眼科学


近年来,眼科领域出现了很多 AI 研究,许多论文展示了其 AI 成果超出当前人类的临床诊断和分析能力。这带来的潜在影响是巨大的,眼睛检查仪器的便携性意味着可以利用临时诊所和远程医疗为偏远地区带去检测点。该领域极大地依赖眼底成像和光学相干断层扫描 (OCT) 来诊断和管理病人。


CNN 可以准确诊断许多疾病。眼睛包含大量人类无法解释的特征,包含有意义的医疗信息,而 CNN 可以获取这些特征。CNN 还可以基于眼底成像分类多种心血管和糖尿病风险因素,包括年龄、性别、收缩压等。这表明未来 AI 研究有可能基于眼部图像预测非眼部信息,带来医疗领域的范式转变,即通过眼部检查判断眼部和非眼部疾病,而这是人类医生目前无法做到的。


医疗视频


手术应用


计算机视觉可以在手术和内窥镜检查等医疗步骤中提供极大的用途。深度学习在医疗方面的重要应用包括通过实时环境感知、技能评估和训练来提升手术性能。早期研究主要在基于视频的机器人手术和腹腔镜手术中开展。另一个方向则是利用计算机视觉识别不同的手术阶段,从而开发环境感知的计算机辅助系统。


此外,计算机视觉还开始出现在开放手术中。这里的挑战在于视频捕捉视角的多样性(如头戴式、侧视和悬吊式摄影机)和手术类型的多样化。对于所有类型的手术视频,将 CV 分析转换为可以提升治疗效果的工具与应用是下一个研究方向。


人类活动


计算机视觉可以识别物理空间中的人类活动,可用于大量「环境智能」应用。环境智能指连续、非侵入式地感知物理空间中的活动,从而为医生、护士等医疗工作人员提供帮助,如病人监测、自动化文档等,参见图 3。




图 3:环境智能计算机视觉与传感器和视频流让很多安全应用在临床和居家环境中变为了可能,为医护工作者扩展了监测病人的能力。这些应用主要使用细粒度活动识别模型构建,可能包括 ICU 中的患者监测、医院和诊所中的洗手动作监测、异常事件检测等。


环境感知还可以在医院之外应用,帮助更多人及时获取医疗服务。例如,它可以通过监测日常活动中的异常情况来帮助独居老人及时获取医疗服务。此外,计算机视觉技术还有望成为远程生理指标测量的工具,例如系统利用视频来分析心率和呼吸频率。


临床部署


医疗 AI 的应用可以给社会带来福利,也有可能加剧长期存在的不平等。当得到恰当、符合伦理的使用时,医疗 AI 可以促成更公平的医疗环境。而其关键在于理解模型基于什么样的数据构建、在什么样的环境中部署。该论文展示了将机器学习技术应用于医疗领域时需要注意的四个要点:数据评估、模型局限性解决、社区参与和信任建立。


数据质量很大程度上决定了模型质量,发现数据中的不公平并解决将带来更公平的医疗环境。目前有多种移除数据偏见的方法。个体层面上的偏见可以通过专家讨论和标注判定来解决,而群体层面偏见则需要缺失数据补足和分布漂移来解决。国际多机构评估是确定模型在多种不同群体、医疗设备、资源设置和实践模式间泛化性能的鲁棒方法。此外,使用多任务学习训练模型执行多种任务也会使模型更具普遍用途和鲁棒性。


透明报告可以解决模型的潜在缺陷,帮助解决模型局限性。然而,仅仅报告,以及在通用数据集上实现强大性能并不足够,我们还应理解模型失败的特定实例。一种解决方案是将评估人口统计性能与显著图结合起来,从而可视化模型关注的地方,发现潜在的偏差。下图 4 展示了模型部署中的偏见。



图 4:模型部署中的偏见。


从病人、医生、计算机科学家和其他利益相关人的角度来看,社区参与对于模型的成功部署更为重要。它可以帮助识别医疗诊断中种族偏见的结构化成因,具体表现是发现数据集中的偏见、确定导致模型失败的人口统计特征。以用户为中心的评估是确保模型可用性并使其适应现实世界的重要工具。


另一个使医生建立起对 AI 信任的有效工具是 ML 模型与现有工作流的并行部署,参见图 5:


图 5:临床部署。该示例工作流程展示了 AI 增强工作流的积极效果,以及可建立起的信任。人工智能的预测结果为医生提供了直接价值,而随着收集到的数据增加,这种能力还会不断提升。

理论计算机视觉医疗
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

多任务学习技术

环境智能技术

推荐文章
暂无评论
暂无评论~