依图医疗与广妇儿科研成果发表于《Nature Medicine》:将NLP应用于临床智能诊断

这是全球首次在顶级医学杂志发表有关自然语言处理(NLP)技术基于电子健康记录(EHR)做临床智能诊断的研究成果

2月11日,国际顶级医学科研期刊《Nature Medicine》在线发布了题为“Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence”(《使用人工智能评估和准确诊断儿科疾病》)的文章。

该文章由广州市妇女儿童医疗中心与依图医疗等企业和科研机构共同完成,基于机器学习自然语言处理(NLP)技术实现不输人类医生的强大诊断能力,并具备多场景的应用能力。据介绍,这是全球首次在顶级医学杂志发表有关自然语言处理(NLP)技术基于电子健康记录(EHR)做临床智能诊断的研究成果,也是利用人工智能技术诊断儿科疾病的重磅科研成果。



业界公认,人工智能是医疗行业革新的核心动力。然而,尽管机器学习在影像诊断方面表现强势,但在数量巨大、多样的电子病历数据分析方面,仍面临巨大挑战。电子病历的数据信息之广、数据类型之多,以及某些方面的数据贫乏及可能出现的特殊案例等,都导致机器学习难以进行精确的数据分析,并进而形成预测临床检测的数据模型。


人工智能系统诊断儿科疾病流程图


依图提出并测试了一个专门对电子医学病例进行数据挖掘的系统框架,将医学知识和数据驱动模型结合在一起。该模型先通过NLP对电子病例进行标注,利用逻辑回归来建立层次诊断,在常见儿童疾病方面的综合诊断准确率优于相对低年资儿科医生(3年+8年临床经验)。

从数据来看,以呼吸系统疾病为例,对上呼吸道疾病和下呼吸道疾病的诊断准确率分别为89%和87%,而在上呼吸道疾病诊断中,急性喉炎和鼻窦炎的准确率分别高达86%和96%,对不同类型哮喘的诊断准确率从83%到97%。同时对普通系统性疾病以及危险程度更高的疾病也有很高的诊断准确率,例如传染性单核细胞增多症(90%)、水痘(93%)、玫瑰疹(93%)、流感(94%)、手足口病(97%)和细菌性脑膜炎(93%)。也就是说,该系统可以根据NLP系统注释的临床数据信息对儿科疾病做出准确的判断。


人工智能系统和医疗团队在儿科疾病诊断水平的比较


“此次成果的核心技术部分,实际上是通过深度学习技术与医学知识图谱,对EHR数据进行解构,从而构建了高质量的智能病种库。使得后续可以较容易地利用智能病种库建立各种诊断模型。而诊断模型证明了基于AI的系统可以帮助医生处理大型数据和辅助诊断,同时在诊断的不确定性和复杂性上给予临床支持”,依图医疗总裁倪浩表示,“儿科疾病症状多种多样,临床医生同样难以区分,诊断流程费时费力,但明确诊断非常重要。拥有可与经验丰富的儿科医生相媲美的助手进行辅助诊断,能够让医生有效地降低诊断时间,显著优化诊断流程。”

依图与广州市妇女儿童医疗中心进行合作,收集了该中心在2016年1月至2017年7月间的567,498个门诊病人的1,362,559次问诊电子病历,抽取到覆盖初始诊断包括儿科55种病例学中常见疾病的1.016亿个数据点,并将这些信息用于训练和验证系统框架。相比以往模型,此次研究使用了超过140万的庞大数据,以完善诊断系统,此外,此次研究中使用数据在表达和描述上的一致性,极大的提高了数据质量。

不仅如此,此次研究还基于NLP实现了病历的重新格式化。首先,有超过25年临床实践经验的资深主治医师手动注释了6,183个图表,然后用3,564张人工标注的图表对NLP信息提取模型进行训练,并用剩下的2,619张图表对模型进行验证。该NLP模型总结了代表临床数据的关键概念类别,利用深度学习技术自动将EHR注释到标准化词汇和临床特征中,从而允许对诊断分类进行进一步处理。

广州市妇女儿童医疗中心夏慧敏教授表示,“这篇文章的启示意义在于,通过系统学习文本病历,人工智能或将可以诊断更多疾病。但须要清醒认识到,我们仍有很多基础性工作要做扎实,比如高质量数据的集成便是一个长期的过程,因为大数据的收集和分析需要算法工程师、临床医生、流行病学专家等在内的多专家的通力合作。此外,人工智能学习了海量数据后,其诊断结果的准确性仍然需要更大范围的数据对其进行验证和比对。”

此次研究得到Nature Medicine杂志的高度认可,其原因还在于其具备极强的多场景应用能力。例如在分诊环节,通过记录基础数据让模型产生预测诊疗结果,并通过这个结果评估病人的优先级,以确保医生可以按需就诊。此外,基于AI的诊断模型还可以帮助医生诊断复杂或罕见病症,提示可能情况,避免由于医生受限于自身专业或经验,在复杂病症出现时出现误诊。此外,基于 EHR 构建的高质量智能病种库,还可打破原有信息化系统的界限,便于更多的科研项目和业务领域高效地使用,优化临床数据的获取链路,以及打造更具价值的诊断系统,大大提升临床诊疗的效率。可以预见的是,这个模型不仅能在医疗资源短缺或不均的地区发挥巨大作用,也将为全世界带来重要的普适进步意义。

毫无疑问的是,在大数据时代,医疗信息正变得越来越复杂。近年来,疾病实体、诊断测试和生物标志物以及治疗方式的范围呈指数级增长,临床决策也变得更加复杂,需要大量数据点的综合。在当前的数字时代,EHR代表了大量的电子数据点存储库,这些数据点代表了各种各样的临床信息。人工智能方法已经成为挖掘EHR数据的潜在强大工具,以帮助疾病诊断和管理,模仿甚至可能增强人类医生的临床决策。

作为Nature杂志专注于生物医学领域的专业子刊,Nature Medicine注重基础研究和涵盖医学各方面的早期临床研究,高度关注人工智能技术对医疗行业带来的巨大革新作用。在2019年1月刊中,Nature Medicine曾发表9篇论文聚焦AI医疗,此次文章,在说明这一研究的学术领先性与应用拓展性的同时,也标志着人工智能在医疗行业的深度落地,及驱动医疗行业深层革新的巨大作用。


理论论文依图医疗
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~