晓坤参与

AI医疗新突破:增强罕见疾病的影像数据集,大幅提高识别准确率

AI 特别是深度学习在提升医疗诊断的速度和准确率上拥有相当的潜力,但在临床医师可以驾驭 AI 的能力识别医学图像(例如 X 射线影像)中反映的疾病之前,他们需要先对模型进行大量训练,而罕见疾病标记图像的匮乏一直是深度学习医疗的一大障碍。现在,多伦多大学教授 Shahrokh Valaee 和他的团队设计了一种 AI 医疗领域中的新方法:使用生成对抗网络创建的 X 射线影像来增强 AI 训练集。实验表明,通过数据增强,无论对常见疾病还是罕见疾病,系统的识别准确率都有大幅提高。

Shahrokh Valaee 教授和博士生 Hojjat Salehinejad 正在使用机器学习创建虚拟 X 射线胸透影像来训练 AI 系统识别罕见疾病。摄影:Jess MacInnis

由于以监督学习方式训练 AI 系统的医学图像非常稀少,识别医学图像中的罕见疾病对于研究者而言一直是很有挑战的问题。

Shahrokh Valaee 教授和他的团队设计了一种新方法:使用机器学习创建计算机生成的 X 射线影像以增强 AI 的训练集。

在每个象限的左侧是一张真实的病人 X 射线胸透影像,其旁边是由 DCGAN 生成的合成 X 射线影像。在 X 射线影像的下方是对应的热图,是机器学习系统观察影像后得到的。图源:Hojjat Salehinejad/MIMLab

「在某种意义上,我们在使用机器学习来做机器学习,」多伦多大学 Edward S. Rogers 高级电气与计算机工程系(ECE)教授 Valaee 说。「我们正在创建模拟的但反映了特定罕见疾病的 X 射线影像,从而我们可以将它们和真实 X 射线影像结合起来,以得到足够规模的数据库,来训练神经网络在其它 X 射线影像上识别这些疾病。」

Valaee 是医学实验室机器智能(MIMLab)的成员,MIMLab 是一个由医师、科学家和工程研究员组成的团队,致力于将他们的专业知识结合到图像处理、人工智能和医学中以解决医学挑战。「AI 在医疗领域中有无数种方式能提供帮助,」Valaee 说,「为此我们需要大量数据。但对于某些罕见疾病,并没有让这些系统正常工作而必要的数千张标记图像。」

为了创建这些人工 X 射线影像,该团队使用了称为深度卷积生成对抗网络(DCGAN)的 AI 技术,来生成和不断提升模拟图像。GAN 是一类由两个网络构成的算法:一个网络生成图像,另一个尝试将合成图像和真实图像区分开来(判别器)。这两个网络被持续训练直到判别器无法将合成图像和真实图像区分。一旦创建了足够多的人工 X 射线影像,它们就和真实 X 射线影像结合起来以训练一个深度卷积神经网络(即分类器),然后该分类器用于对其它图像进行诊断(正常或有疾病)。

「我们的实验表明,由 DCGAN 生成的人工数据可以用于增强真实数据集,」Valaee 说。「这为我们提供了更多的训练数据,并提升了这些系统在识别罕见疾病上的性能。」

MIMLab 将用增强数据集获得的识别准确率和原始数据集获得的准确率进行对比,发现对于常见疾病,其识别准确率提高了 20%。对于某些罕见疾病,准确率提高了约 40%,并且由于合成的 X 射线影像不是源于真实的个体,该数据集可以轻易地提供给医院外的研究者,而不会侵犯个人隐私。

「这实在令人激动,通过证实这些增强数据集帮助提高了分类准确率,我们已经可以克服将人工智能应用到医疗中的一大障碍,」Valaee 说。「深度学习仅当训练数据足够多的时候才有效,而数据增强是可以确保神经网络能以高精度分类图像的一种方式。」

原文链接:https://www.sciencedaily.com/releases/2018/07/180706150816.htm

产业医疗生成对抗网络医学影像
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

生成对抗网络技术
Generative Adversarial Networks

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图像处理技术
Image processing

图像处理是指对图像进行分析、加工、和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。 近年来监督式深度学习方法(以反馈算法训练CNN、LSTM等)获得了空前的成功,而基于半监督或非监督式的方法(如DBM、DBN、stacked autoencoder)虽然在深度学习兴起阶段起到了重要的启蒙作用,但仍处在研究阶段并已获得不错的进展。在未来,非监督式学习将是深度学习的重要研究方向,因为人和动物的学习大多是非监督式的,我们通过观察来发现世界的构造,而不是被提前告知所有物体的名字。 至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

机器之心
机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

推荐文章
从数据中自动分析死亡原因,这是东南亚国家正在流行的公共卫生策略从数据中自动分析死亡原因,这是东南亚国家正在流行的公共卫生策略
微胖微胖
12年前,一家温哥华酒店如何酝酿了一场人工智能的革命12年前,一家温哥华酒店如何酝酿了一场人工智能的革命
PSI内容合伙人PSI内容合伙人
从视频到语句,优必选获TRECVID 2017子任务冠军从视频到语句,优必选获TRECVID 2017子任务冠军
机器之心机器之心
返回顶部