深度学习已经在图像检索、自然语言处理和语音识别等多个领域得到了成功应用。但是,深度学习还无法有效用于根据聚合的电子健康记录(EHR)来推导对病人的表征,从而助益预防医学。这篇论文将深度学习用在了大规模 EHR 数据集的分析上,进而能够提取出可被用于预测人们未来可能患上的疾病的稳健的患者描述因子。这篇论文发表于 Scientific Reports,机器之心技术分析师对其进行了简要解读,本文为解读的中文版。
论文地址:https://www.ncbi.nlm.nih.gov/pubmed/27185194
什么是电子健康记录(EHR)?
预防医学的主要目标之一是开发预测性的方法来维持健康以及预防疾病、残疾和死亡。EHR 收集和整理了护理中各个方面随时间变化的信息,其中的数据通常表示成相关的受控词汇的形式。EHR 数据包含多种数据类型——从药物描述(包含通过标准化系统记录的日期和剂量)等结构化信息到临床叙述(描述处方背后的医学推理)等非结构化信息。在这样的背景中,应用于 EHR 的信息检索将有希望极大地帮助医生根据病人的临床状态识别其潜在的患病风险。
EHR 数据集和数据预处理
范围广泛的不同数据类型是 EHR 整合的突出难题。为此,研究者提出了一个允许灵活定制病人 EHR 的处理和归纳方式的框架。简单来说,对于数据集中的每个病人,他们都具有一些普适的人口统计信息细节(比如性别和民族),以及不同时间的诊断、用药、治疗流程、实验室测试和临床记录。研究者对所有临床特征都进行了预处理,以统一医疗流程和实验室测试的代码;他们也基于品牌名称和剂量对用药情况进行了归一化,而经过解析后的临床记录表征则总结了从文本中提取出的临床相关信息。最后,研究者对 EHR 数据进行了分组,以将每个病人的数据都表示成一个向量(图 2)。
算法框架和表现
然后,研究者使用了无监督深度特征学习框架来处理从所有病人那里得到的向量,通过一个多层神经网络(图 3)来推导一组高层面的描述因子。这种深度架构的目标是以一种分层的和非线性的方式将原始特征组合成更加紧凑的表征形式。在这个深度网络的每一层,都会有几个互相重叠的描述因子共同创造一个更高级的临床概念(比如疾病和用药)。
研究者使用了一组堆叠的去噪自动编码器(SDA)来建模 EHR。深度架构中所有的自动编码器都具有同样的结构。最后一层的输出是可用于预测未来疾病的病人表示(图 4)。
在同样的时间窗口中,Deep Patient 预测病人未来的准确度优于其它特征学习策略。
局限性和未来方向
这篇论文表明了使用深度学习分析 EHR 数据来预测未来疾病的可行性。除了预测病人的疾病,EHR 数据可能还有更多临床应用的潜力,包括个性化处方、治疗方法推荐和临床试验招募。当前研究也存在某些局限性。比如,研究者使用了实验室测试的频率而非测试结果来发现病人的模式。通过更好的数据收集流程和更精细的预处理技术,这方面可以得到改进。
过去几年来,已经出现了相当一些对病人的 EHR 进行数据分析的研究。对已有的大量 EHR 数据的使用正变得越来越广泛。EHR 数据挖掘要在医疗应用上取得成功,关键是要从病人的 EHR 中提取出有效的特征。为了克服这一难题,深度学习方法成为了实现这一目标的强大工具。EHR 挖掘有揭示疾病和诊断表型之间未知的相关性的潜力。除了更好的预测表现,还需要更多研究努力,以便更好地理解深度学习模型所学习到的特征,这有望在医疗实践中构建起新的以病人为中心的医疗原则。
参考文献
[1] Miotto R et al. Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Scientific Reports, 2016.
[2] Mining electronic health records: towards better research applications and clinical care. Nature Reviews Genetics. 2012.