体素科技:全病种医疗影像阅读者

以影像为基础,融合多模态数据提供自动转诊能力、提供确诊决策支持、提供初级影像报告,这就是全病种医疗影像阅读者给出的愿景。

在医疗影像领域最知名的一些公开数据集中,BRATS 关注脑部图像中脑肿瘤的检测和分割,LUNA16 旨在从胸片中检测肺结节,而以 Kaggle Diabetic Retinopathy Challenge 2015 为代表的多个数据集则关注糖尿病视网膜病变程度分类。在这些面向某一特定病种的任务上,研究者都已经取得了精确度不错的成果。然而从一个好的分类模型到临床实践之间的距离有多远?

「目前的医疗影像识别技术大多面向『重病大病』。然而,拿大家最熟悉的胸部 CT 的分析做例子,患者和医生真的需要一个『专看肺癌病灶,但是其他肺病一概不会看』的系统吗?」体素科技创始人丁晓伟提出的这个问题,答案是显而易见的。

医生是根据患者症状、患病风险或其他检查的结果来为患者做某种影像检查,希望查明「为什么咳嗽?」,而非「是否患了肺癌?」。哪怕是定向疾病的筛查,阅片医生一样有义务汇报所有影像中的可见异常。单一病种识别模型只能完成单一病种的假设与检验,然后回答问题二,对于问题一,只能表示无能为力。理想的系统既要能够回答「您没有患肺癌」,也能告诉患者「但是有肺炎」。「发现所有可见异常病定性」这个医疗诊断的基本逻辑,让「特定影像协议(Imaging Protocol)下的的全病种识别能力」成了人工智能医疗影像技术投入真实场景的底线。

「全病种医疗影像阅读」对于人类医生来说尚且不是一个容易达成的目标。丁晓伟谈到,我国大约有一半的早期大病没有获得应有的检查。基层医院其实有丰富的影像设备资源,但是为丰富的设备配备同等丰富的医生资源却是几乎不可能的。

因此,将「给定影像协议下的全病种医疗影像阅读者」作为所有产品线定位的体素科技VoxelCloud)才显得与众不同。「作为一款 AI 影像分析产品,如果想有效地控制诊断质量,就需要可用场景宽广且边界清晰,避免人为因素的影响。正面例子有:适用于所有非增强胸部 CT 的可见异常检测产品、适用于所有眼底彩照的可见异常检测产品。反面例子就是:适用于所有肺结节类病人的产品、适用于所有糖网病案例的产品。」

总而言之,产品需要从影像中得到近似医生撰写的自然语言报告来最大成度降低医生工作量。而为了呈现这简单一步,需要背后的机器学习模型具有人体各器官与组织的位置认知能力和导航能力、对所有可见病理类型在不同位置的检测和识别能力,以及对病灶的定性和量化能力。

「用机器学习的语言描述,我们的 VoxelCloud Retina 眼底照相完整解决方案,就是一个能完成 10 种病灶类型的分类和量化,也能完成 8 种可见疾病的分类的多任务模型。」体素眼科产品线负责人 Joseph 介绍说。

VOXELCLOUD Retina 覆盖的病灶类型与疾病类型

而另一条产品线 VoxelCloud Thorax 胸部 CT 解决方案的负责人则直接向我们展示了一张巨大的列表。

肺部结节特性列表

 「如果想要生成一份 CT 结节类病灶报告,肺结节的检测(detection)和定位(localization)某种意义上都是一些预处理工作。完成之后,更关键的工作是分割(segmentation)以及特性描述(characterization)。这份列表是对结节特性的描述,一共包括九个类型超过 30 种特性描述。除了在影像专家的建议下去除了一些冗余外,体素的系统进行了全部有意义特性的描述。除此之外,系统还需要进行精准的肺部分割、肺叶分割、血管和气管的识别,才能理解病灶与周边组织的相对关系。基于上述理解,进一步提供同一病人不同时间随访扫描的对应病灶匹配,加以量化对比,才能最终输出一段完整的结节自然语言描述。每种病灶类型的报告生成过程都是如此。」

 这家创立于洛杉矶和上海的人工智能医疗影像公司,从名字就开始展现了他们对于医疗影像领域的抱负。

Voxel 或者说体素,来自于 volumetric pixel 的简称。它是「像素」概念的三维版本,代表了三维空间上数据的最小单位。了解了它的定义,也就不难明白为什么在日常生活里「像素」常见而「体素」不常有了:再高端的相机,拍出来的影像也都是天然二维的,医疗影像几乎是唯一一个原生三维的场景。想要把计算机视觉领域里常见的二维模型用于医疗影像,似乎只有两个选择:把模型升级成三维,或者把图像降级到二维。

体素用名字告诉了我们它的选择。「既然医疗影像天生就是 3D 影像,那么我们还是选择使用 3D 模型解决 3D 问题」,丁晓伟这样解释道。


心包脂肪体积 3D 量化

不用常见的二维计算机视觉模型处理影像截面,而是用三维模型处理影像整体,可以说是选了视觉领域最难啃的骨头之一。当影像的大小随着维度增加而指数级地扩大,「内存有限」这个当下深度学习模型的「阿喀琉斯之踵」被打击了个正着;同时,当识别主体占影像的比例指数级地减小,卷积神经网络引以为傲的按层级抽取特征的能力在明显不足的主体信息面前也无从发挥。

「为了让计算机能够在不耗尽内存的情况下处理一整张不经压缩也不经切割的影响,我们对模型结构进行了很多专门的设计。」丁晓伟提到这个框架时非常兴奋,「我们使用了空间可分解卷积(spatially separable convolution)和深度/广度可分解卷积(depth-width separable convolution)替代了原有的卷积层。」

空间可分解卷积的逻辑是把一个 7 x 7 的卷积核分解成一个 7 x 1 的向量和一个 1 x 7 的向量的乘积,这样原本需要 49 个参数卷积操作就只需要 14 个参数了。深度/广度可分解卷积则对三维影像的每一层进行二维卷积,然后再对所有的二维特征图进行卷积,形成一个三维特征图。「三维卷积模型非常难以训练,但是在推理阶段比二维逐层处理的速度快二十倍,精确率也更高。一根血管和一个结节的截面可能在二维空间上很难分辨,但是在三维空间里是一目了然的。」

医疗影像处理的其他难点还包括样本不均衡性。抛开影像设备的水平、医生操作水平、数据标注质量等种种参差,就算上述一切完美,我们收集到的数据库里,仍然会有大量影像是未患病的(阴性),少量影像是患病的(阳性)。大量的负样本和大量的容易分类的样本让模型并不能专注于从错误中学习。「为了解决这一问题,我们使用了 Focal Loss 来作为损失函数。」Joseph 介绍道。

Focal Loss 是去年 10 月的 ICCV 2017 最佳学生论文,由 Facebook 人工智能实验室(FAIR)的 Ross Girshick 和何恺明参与提出。这种损失函数旨在从交叉熵出发,通过减少那些容易分类的样本的权重,让模型更专注于难分类的样本。

这份去年 8 月刚刚发布预印版的论文,从新鲜出炉到经历工程试验投入到产业中,用时一年还不到,这对于在引入新事物上审慎到近乎迟滞的、研究往往落后工程技术业界五年的医疗行业来说,不啻于飞速。

「实际上医疗影像领域对深度学习整体的接受速度就很快。因为它确实让前深度学习时代不可能解决的问题变得可解。」丁晓伟仍然以肺结节为例,「上世纪 80 年代以西门子为代表的诸多医疗影像巨头们就组织了大量人力,耗时十年,致力于以手工设计的特征来检测肺结节。然而这样庞大的工程也仅仅能止步于肺结节的检测,无法做好更加细微的结节良恶性风险判断。结节的良恶性是由一些极为微小的特征差别决定的,这很难以语言或手工特征的形式描述,同时规律非常不明显,很难以正向思维进行总结。然而深度学习带来了数据驱动的可能,当模型从无数的真实肺结节样例中抽象出了无法在低维空间进行描述的特征,良恶性、乃至更多的特性描述就变得可能了。」

如果说决定以三维模型、以全新的损失函数解医疗影像问题是方法论上的选择,以「全病种医疗影像阅读」为目标是从满足现实需求的角度进行产品设计,那么「多任务学习」(multi-task learning)则是二者的一个结合。

多任务学习是基于共享表示(shared representation),把多个相关的任务放在一起学习的一种机器学习方法。「(多任务学习)既是一种提高模型表现能力的方法论,也是实现全病种的一种实用的方法,模型客户端部署时受到成本和硬件的限制,需要使用尽量少的模型个数来完成尽量复杂的推理任务。」丁晓伟说。

在眼底照相中,存在近二十个彼此相关的分类任务,选择进行多任务学习之后,先对哪一个任务进行训练就会极大影响训练时间以及模型效果。「实验证明,先学习那些不确定性减少最快的模型获得的效果最好」,Joseph 介绍道。

而在胸部影像领域,体素在进行一些更为大胆的尝试。

用一个可以端到端训练的多任务模型进行所有肺部相关影像诊断工作

「我们试图用一个模型进行所有肺部相关的工作。」丁晓伟画了一张框图:同一个模型,首先共用一个编码器(Encoder)将三维医疗影像压缩成特征向量,然后在两个分支上分别用解码器(Decoder)完成肺叶分割、用 Mask R-CNN 进行结节检测。在完成结节检测的同时,利用获得的球心和半径信息获得 3D 结节 ROI(Region of Interest,感兴趣区域),然后再次基础上分别进行结节分割和结节特性描述。最终,汇总各个分支模型,为每个检测到的结节生成一份自然语言报告:「在左下肺叶发现一处圆形实性磨玻璃混合型结节(2.5mm*4.4mm),边缘平整,有血管穿过、内含脂肪组织,恶性风险 15%。」


肺叶分割与肺结节分割

在用特殊的算法设计解决了算力问题之后,剩下的问题只有一个:数据。想要完成这样一个规模宏大的模型,前提条件是拥有每一张影像的所有信息标注。

「我们就快完工了」,丁晓伟提到。这里的完工,是指建立一个包含了超过 8 万份胸部 CT 全病种精标记数据集。

除了肺癌相关数据之外,体素在其他类型肺部病种上也积累了每种约 3 千份的储备,累计收集了超过 15 万份胸部 CT 数据。此外,还有超过 5 万份带有 5 年随访记录的心脏冠脉造影 CT 数据和超过 420 万眼底影像数据。

一年前的采访中,丁晓伟提到,「体素想做医疗影像界的 ImageNet,把人的各种结构、各类常见病种病理全部交给一个统一模型,让模型首先对影像里『有什么』有一个概念,然后再针对具体的应用开发精校的模型。」如今这个巴比伦塔一样的工作已经展现出了雏形。ImageNet 的出现让复杂的神经网络模型在「势均力敌」的复杂数据集上进行训练,最终将计算机视觉带入深度学习的时代。在医疗影像的世界里,数据集的规模量变引起质变的转捩点,是不是也即将到来呢?

一个拥有全病种阅读能力的计算机视觉系统能够做什么?在技术语言与数字之上,是一个美好的愿景。

如今有超过 50% 的糖尿病患者没有及时进行并发症眼病筛查,因为很难要求内分泌医生具有眼底照相阅片能力。而一个视网膜影像全病种阅读者的存在,让糖尿病为代表的慢性病随访管理,变成基层医院可以完成的任务。

眼底彩照筛查报告生成过程

更进一步,当全病种影像阅读者从 to B 走向 to C,能够覆盖的人群就更为广泛。

如今中国有 6000 万处于视力发育关键时期的 3 岁以下儿童。其中有大约 4% 存在各类视力问题风险。3 岁以下儿童的认知能力尚不足以配合普通眼科医生进行常规视力检查,而全国能够进行专业小儿眼科检查的医生却仅有数千人。一个能从家长拍摄的视频里分析眼球和身体的动作表现是否有异常,发现视力有问题的儿童并及时转诊干预的系统,把儿童视力问题的普查变得可能。

儿童过度斜视与眯眼

以影像为基础,融合多模态数据提供自动转诊能力、提供确诊决策支持、提供初级影像报告,这就是全病种医疗影像阅读者给出的愿景。

产业
相关数据
异常检测技术
Anomaly detection

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

交叉熵技术
Cross-entropy

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

损失函数技术
Loss function

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

Mask R-CNN技术
Mask R-CNN

Mask R-CNN是一个概念上简单,灵活和通用的对象实例分割框架。 该方法能够高效地检测图像中的对象,同时为每个实例生成高质量的分割蒙版。 这种方法通过添加一个用于预测对象蒙版的分支来扩展R-CNN使之更快,该分支与现有的用于边界框识别的分支并行。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。 近年来监督式深度学习方法(以反馈算法训练CNN、LSTM等)获得了空前的成功,而基于半监督或非监督式的方法(如DBM、DBN、stacked autoencoder)虽然在深度学习兴起阶段起到了重要的启蒙作用,但仍处在研究阶段并已获得不错的进展。在未来,非监督式学习将是深度学习的重要研究方向,因为人和动物的学习大多是非监督式的,我们通过观察来发现世界的构造,而不是被提前告知所有物体的名字。 至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

体素科技机构
VoxelCloud

体素科技(VoxelCloud)是一家人工智能医疗公司,是由丁晓伟在2016年创立,公司创立于苏州,并在北京、上海设有分支机构,在美国洛杉矶设立有VoxelCloud研究院。体素科技定位于下一代人工智能医疗产业,致力于提供基于深度学习的精准和个性化的医疗诊断服务。截止2017年10月体素科技已陆续完成联创投资、红杉资本和腾讯数千万美元天使轮、A轮融资和A+轮融资,主要用于扩展已有针对特定重大疾病的医疗影像自动分析服务,提供医疗语义级别的医学影像知识图谱API,并与中美著名医学中心合作将终端产品无缝融入下一代临床工作流程。目前公司已经覆盖了肺癌诊断、眼底疾病检查、冠脉增强CT分析系统等领域,并根据相应的临床需求提供端到端的解决方案。

多任务学习技术
Multi-task learning

人物
Ross Girshick

涉及领域
卷积技术
Convolution

推荐文章
医疗AI水深坑多,这两家重要公司都走到哪一步了?
微胖
变革的开始,深度学习将如何改变医疗成像领域?
机器之心
聚焦「肺结节」和「尘肺病」,医疗领域上演「读片」人机大战
藤子
暂无评论
暂无评论~
返回顶部