Genome Hunter作者Hao Wang编辑

基于电子健康记录的无监督深度特征学习预测未来疾病

深度学习已经在图像检索、自然语言处理语音识别等多个领域得到了成功应用。但是,深度学习还无法有效用于根据聚合的电子健康记录(EHR)来推导对病人的表征,从而助益预防医学。这篇论文将深度学习用在了大规模 EHR 数据集的分析上,进而能够提取出可被用于预测人们未来可能患上的疾病的稳健的患者描述因子。这篇论文发表于 Scientific Reports,机器之心技术分析师对其进行了简要解读,本文为解读的中文版。

论文地址:https://www.ncbi.nlm.nih.gov/pubmed/27185194

什么是电子健康记录(EHR)?

预防医学的主要目标之一是开发预测性的方法来维持健康以及预防疾病、残疾和死亡。EHR 收集和整理了护理中各个方面随时间变化的信息,其中的数据通常表示成相关的受控词汇的形式。EHR 数据包含多种数据类型——从药物描述(包含通过标准化系统记录的日期和剂量)等结构化信息到临床叙述(描述处方背后的医学推理)等非结构化信息。在这样的背景中,应用于 EHR 的信息检索将有希望极大地帮助医生根据病人的临床状态识别其潜在的患病风险。

图 1:电子健康记录的内容,图片取自 [2]

EHR 数据集和数据预处理

范围广泛的不同数据类型是 EHR 整合的突出难题。为此,研究者提出了一个允许灵活定制病人 EHR 的处理和归纳方式的框架。简单来说,对于数据集中的每个病人,他们都具有一些普适的人口统计信息细节(比如性别和民族),以及不同时间的诊断、用药、治疗流程、实验室测试和临床记录。研究者对所有临床特征都进行了预处理,以统一医疗流程和实验室测试的代码;他们也基于品牌名称和剂量对用药情况进行了归一化,而经过解析后的临床记录表征则总结了从文本中提取出的临床相关信息。最后,研究者对 EHR 数据进行了分组,以将每个病人的数据都表示成一个向量(图 2)。

图 2:EHR 数据预处理

算法框架和表现

然后,研究者使用了无监督深度特征学习框架来处理从所有病人那里得到的向量,通过一个多层神经网络(图 3)来推导一组高层面的描述因子。这种深度架构的目标是以一种分层的和非线性的方式将原始特征组合成更加紧凑的表征形式。在这个深度网络的每一层,都会有几个互相重叠的描述因子共同创造一个更高级的临床概念(比如疾病和用药)。

图 3:无监督深度特征学习架构将原始的病人表征转换成一组通用且稳健的特征

研究者使用了一组堆叠的去噪自动编码器(SDA)来建模 EHR。深度架构中所有的自动编码器都具有同样的结构。最后一层的输出是可用于预测未来疾病的病人表示(图 4)。

图 4:这个深度神经网络中每层的目标是生成更高级的特征表示

在同样的时间窗口中,Deep Patient 预测病人未来的准确度优于其它特征学习策略。

Image图 5:DeepPatient、原始描述因子和其它方法在不同时间尺度上的病人表示的精度结果 caption

局限性和未来方向

这篇论文表明了使用深度学习分析 EHR 数据来预测未来疾病的可行性。除了预测病人的疾病,EHR 数据可能还有更多临床应用的潜力,包括个性化处方、治疗方法推荐和临床试验招募。当前研究也存在某些局限性。比如,研究者使用了实验室测试的频率而非测试结果来发现病人的模式。通过更好的数据收集流程和更精细的预处理技术,这方面可以得到改进。

过去几年来,已经出现了相当一些对病人的 EHR 进行数据分析的研究。对已有的大量 EHR 数据的使用正变得越来越广泛。EHR 数据挖掘要在医疗应用上取得成功,关键是要从病人的 EHR 中提取出有效的特征。为了克服这一难题,深度学习方法成为了实现这一目标的强大工具。EHR 挖掘有揭示疾病和诊断表型之间未知的相关性的潜力。除了更好的预测表现,还需要更多研究努力,以便更好地理解深度学习模型所学习到的特征,这有望在医疗实践中构建起新的以病人为中心的医疗原则。

参考文献 

[1] Miotto R et al. Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Scientific Reports, 2016.

[2] Mining electronic health records: towards better research applications and clinical care. Nature Reviews Genetics. 2012.

技术分析
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~