Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

体素科技:全病种医疗影像阅读者

以影像为基础,融合多模态数据提供自动转诊能力、提供确诊决策支持、提供初级影像报告,这就是全病种医疗影像阅读者给出的愿景。

在医疗影像领域最知名的一些公开数据集中,BRATS 关注脑部图像中脑肿瘤的检测和分割,LUNA16 旨在从胸片中检测肺结节,而以 Kaggle Diabetic Retinopathy Challenge 2015 为代表的多个数据集则关注糖尿病视网膜病变程度分类。在这些面向某一特定病种的任务上,研究者都已经取得了精确度不错的成果。然而从一个好的分类模型到临床实践之间的距离有多远?

「目前的医疗影像识别技术大多面向『重病大病』。然而,拿大家最熟悉的胸部 CT 的分析做例子,患者和医生真的需要一个『专看肺癌病灶,但是其他肺病一概不会看』的系统吗?」体素科技创始人丁晓伟提出的这个问题,答案是显而易见的。

医生是根据患者症状、患病风险或其他检查的结果来为患者做某种影像检查,希望查明「为什么咳嗽?」,而非「是否患了肺癌?」。哪怕是定向疾病的筛查,阅片医生一样有义务汇报所有影像中的可见异常。单一病种识别模型只能完成单一病种的假设与检验,然后回答问题二,对于问题一,只能表示无能为力。理想的系统既要能够回答「您没有患肺癌」,也能告诉患者「但是有肺炎」。「发现所有可见异常病定性」这个医疗诊断的基本逻辑,让「特定影像协议(Imaging Protocol)下的的全病种识别能力」成了人工智能医疗影像技术投入真实场景的底线。

「全病种医疗影像阅读」对于人类医生来说尚且不是一个容易达成的目标。丁晓伟谈到,我国大约有一半的早期大病没有获得应有的检查。基层医院其实有丰富的影像设备资源,但是为丰富的设备配备同等丰富的医生资源却是几乎不可能的。

因此,将「给定影像协议下的全病种医疗影像阅读者」作为所有产品线定位的体素科技VoxelCloud)才显得与众不同。「作为一款 AI 影像分析产品,如果想有效地控制诊断质量,就需要可用场景宽广且边界清晰,避免人为因素的影响。正面例子有:适用于所有非增强胸部 CT 的可见异常检测产品、适用于所有眼底彩照的可见异常检测产品。反面例子就是:适用于所有肺结节类病人的产品、适用于所有糖网病案例的产品。」

总而言之,产品需要从影像中得到近似医生撰写的自然语言报告来最大成度降低医生工作量。而为了呈现这简单一步,需要背后的机器学习模型具有人体各器官与组织的位置认知能力和导航能力、对所有可见病理类型在不同位置的检测和识别能力,以及对病灶的定性和量化能力。

「用机器学习的语言描述,我们的 VoxelCloud Retina 眼底照相完整解决方案,就是一个能完成 10 种病灶类型的分类和量化,也能完成 8 种可见疾病的分类的多任务模型。」体素眼科产品线负责人 Joseph 介绍说。

VOXELCLOUD Retina 覆盖的病灶类型与疾病类型

而另一条产品线 VoxelCloud Thorax 胸部 CT 解决方案的负责人则直接向我们展示了一张巨大的列表。

肺部结节特性列表

 「如果想要生成一份 CT 结节类病灶报告,肺结节的检测(detection)和定位(localization)某种意义上都是一些预处理工作。完成之后,更关键的工作是分割(segmentation)以及特性描述(characterization)。这份列表是对结节特性的描述,一共包括九个类型超过 30 种特性描述。除了在影像专家的建议下去除了一些冗余外,体素的系统进行了全部有意义特性的描述。除此之外,系统还需要进行精准的肺部分割、肺叶分割、血管和气管的识别,才能理解病灶与周边组织的相对关系。基于上述理解,进一步提供同一病人不同时间随访扫描的对应病灶匹配,加以量化对比,才能最终输出一段完整的结节自然语言描述。每种病灶类型的报告生成过程都是如此。」

 这家创立于洛杉矶和上海的人工智能医疗影像公司,从名字就开始展现了他们对于医疗影像领域的抱负。

Voxel 或者说体素,来自于 volumetric pixel 的简称。它是「像素」概念的三维版本,代表了三维空间上数据的最小单位。了解了它的定义,也就不难明白为什么在日常生活里「像素」常见而「体素」不常有了:再高端的相机,拍出来的影像也都是天然二维的,医疗影像几乎是唯一一个原生三维的场景。想要把计算机视觉领域里常见的二维模型用于医疗影像,似乎只有两个选择:把模型升级成三维,或者把图像降级到二维。

体素用名字告诉了我们它的选择。「既然医疗影像天生就是 3D 影像,那么我们还是选择使用 3D 模型解决 3D 问题」,丁晓伟这样解释道。


心包脂肪体积 3D 量化

不用常见的二维计算机视觉模型处理影像截面,而是用三维模型处理影像整体,可以说是选了视觉领域最难啃的骨头之一。当影像的大小随着维度增加而指数级地扩大,「内存有限」这个当下深度学习模型的「阿喀琉斯之踵」被打击了个正着;同时,当识别主体占影像的比例指数级地减小,卷积神经网络引以为傲的按层级抽取特征的能力在明显不足的主体信息面前也无从发挥。

「为了让计算机能够在不耗尽内存的情况下处理一整张不经压缩也不经切割的影响,我们对模型结构进行了很多专门的设计。」丁晓伟提到这个框架时非常兴奋,「我们使用了空间可分解卷积(spatially separable convolution)和深度/广度可分解卷积(depth-width separable convolution)替代了原有的卷积层。」

空间可分解卷积的逻辑是把一个 7 x 7 的卷积核分解成一个 7 x 1 的向量和一个 1 x 7 的向量的乘积,这样原本需要 49 个参数卷积操作就只需要 14 个参数了。深度/广度可分解卷积则对三维影像的每一层进行二维卷积,然后再对所有的二维特征图进行卷积,形成一个三维特征图。「三维卷积模型非常难以训练,但是在推理阶段比二维逐层处理的速度快二十倍,精确率也更高。一根血管和一个结节的截面可能在二维空间上很难分辨,但是在三维空间里是一目了然的。」

医疗影像处理的其他难点还包括样本不均衡性。抛开影像设备的水平、医生操作水平、数据标注质量等种种参差,就算上述一切完美,我们收集到的数据库里,仍然会有大量影像是未患病的(阴性),少量影像是患病的(阳性)。大量的负样本和大量的容易分类的样本让模型并不能专注于从错误中学习。「为了解决这一问题,我们使用了 Focal Loss 来作为损失函数。」Joseph 介绍道。

Focal Loss 是去年 10 月的 ICCV 2017 最佳学生论文,由 Facebook 人工智能实验室(FAIR)的 Ross Girshick 和何恺明参与提出。这种损失函数旨在从交叉熵出发,通过减少那些容易分类的样本的权重,让模型更专注于难分类的样本。

这份去年 8 月刚刚发布预印版的论文,从新鲜出炉到经历工程试验投入到产业中,用时一年还不到,这对于在引入新事物上审慎到近乎迟滞的、研究往往落后工程技术业界五年的医疗行业来说,不啻于飞速。

「实际上医疗影像领域对深度学习整体的接受速度就很快。因为它确实让前深度学习时代不可能解决的问题变得可解。」丁晓伟仍然以肺结节为例,「上世纪 80 年代以西门子为代表的诸多医疗影像巨头们就组织了大量人力,耗时十年,致力于以手工设计的特征来检测肺结节。然而这样庞大的工程也仅仅能止步于肺结节的检测,无法做好更加细微的结节良恶性风险判断。结节的良恶性是由一些极为微小的特征差别决定的,这很难以语言或手工特征的形式描述,同时规律非常不明显,很难以正向思维进行总结。然而深度学习带来了数据驱动的可能,当模型从无数的真实肺结节样例中抽象出了无法在低维空间进行描述的特征,良恶性、乃至更多的特性描述就变得可能了。」

如果说决定以三维模型、以全新的损失函数解医疗影像问题是方法论上的选择,以「全病种医疗影像阅读」为目标是从满足现实需求的角度进行产品设计,那么「多任务学习」(multi-task learning)则是二者的一个结合。

多任务学习是基于共享表示(shared representation),把多个相关的任务放在一起学习的一种机器学习方法。「(多任务学习)既是一种提高模型表现能力的方法论,也是实现全病种的一种实用的方法,模型客户端部署时受到成本和硬件的限制,需要使用尽量少的模型个数来完成尽量复杂的推理任务。」丁晓伟说。

在眼底照相中,存在近二十个彼此相关的分类任务,选择进行多任务学习之后,先对哪一个任务进行训练就会极大影响训练时间以及模型效果。「实验证明,先学习那些不确定性减少最快的模型获得的效果最好」,Joseph 介绍道。

而在胸部影像领域,体素在进行一些更为大胆的尝试。

用一个可以端到端训练的多任务模型进行所有肺部相关影像诊断工作

「我们试图用一个模型进行所有肺部相关的工作。」丁晓伟画了一张框图:同一个模型,首先共用一个编码器(Encoder)将三维医疗影像压缩成特征向量,然后在两个分支上分别用解码器(Decoder)完成肺叶分割、用 Mask R-CNN 进行结节检测。在完成结节检测的同时,利用获得的球心和半径信息获得 3D 结节 ROI(Region of Interest,感兴趣区域),然后再次基础上分别进行结节分割和结节特性描述。最终,汇总各个分支模型,为每个检测到的结节生成一份自然语言报告:「在左下肺叶发现一处圆形实性磨玻璃混合型结节(2.5mm*4.4mm),边缘平整,有血管穿过、内含脂肪组织,恶性风险 15%。」


肺叶分割与肺结节分割

在用特殊的算法设计解决了算力问题之后,剩下的问题只有一个:数据。想要完成这样一个规模宏大的模型,前提条件是拥有每一张影像的所有信息标注。

「我们就快完工了」,丁晓伟提到。这里的完工,是指建立一个包含了超过 8 万份胸部 CT 全病种精标记数据集。

除了肺癌相关数据之外,体素在其他类型肺部病种上也积累了每种约 3 千份的储备,累计收集了超过 15 万份胸部 CT 数据。此外,还有超过 5 万份带有 5 年随访记录的心脏冠脉造影 CT 数据和超过 420 万眼底影像数据。

一年前的采访中,丁晓伟提到,「体素想做医疗影像界的 ImageNet,把人的各种结构、各类常见病种病理全部交给一个统一模型,让模型首先对影像里『有什么』有一个概念,然后再针对具体的应用开发精校的模型。」如今这个巴比伦塔一样的工作已经展现出了雏形。ImageNet 的出现让复杂的神经网络模型在「势均力敌」的复杂数据集上进行训练,最终将计算机视觉带入深度学习的时代。在医疗影像的世界里,数据集的规模量变引起质变的转捩点,是不是也即将到来呢?

一个拥有全病种阅读能力的计算机视觉系统能够做什么?在技术语言与数字之上,是一个美好的愿景。

如今有超过 50% 的糖尿病患者没有及时进行并发症眼病筛查,因为很难要求内分泌医生具有眼底照相阅片能力。而一个视网膜影像全病种阅读者的存在,让糖尿病为代表的慢性病随访管理,变成基层医院可以完成的任务。

眼底彩照筛查报告生成过程

更进一步,当全病种影像阅读者从 to B 走向 to C,能够覆盖的人群就更为广泛。

如今中国有 6000 万处于视力发育关键时期的 3 岁以下儿童。其中有大约 4% 存在各类视力问题风险。3 岁以下儿童的认知能力尚不足以配合普通眼科医生进行常规视力检查,而全国能够进行专业小儿眼科检查的医生却仅有数千人。一个能从家长拍摄的视频里分析眼球和身体的动作表现是否有异常,发现视力有问题的儿童并及时转诊干预的系统,把儿童视力问题的普查变得可能。

儿童过度斜视与眯眼

以影像为基础,融合多模态数据提供自动转诊能力、提供确诊决策支持、提供初级影像报告,这就是全病种医疗影像阅读者给出的愿景。

产业体素科技医疗医疗影像
相关数据
体素科技机构
罗斯·吉尔西克人物

Facebook 研究科学家,主要研究计算机视觉和机器学习,研究兴趣:实例级目标理解、视觉推理。曾获 2017 PAMI 青年研究者奖,因开发用于目标检测的 R-CNN 而闻名,2017 年以 Mask R-CNN 获得 ICCV Marr Prize。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

卷积技术

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

掩饰的基于区域的卷积神经网络技术

Mask R-CNN是一个概念上简单,灵活和通用的对象实例分割框架。 该方法能够高效地检测图像中的对象,同时为每个实例生成高质量的分割蒙版。 这种方法通过添加一个用于预测对象蒙版的分支来扩展R-CNN使之更快,该分支与现有的用于边界框识别的分支并行。

多任务学习技术

推荐文章
暂无评论
暂无评论~