腾讯AI Lab:AI辅助诊疗系统面临的三大技术挑战


4月12-13日,「2018中国互联网+数字经济峰会」在重庆召开。腾讯公司此前获批承建医疗影像国家新一代人工智能开放创新平台,从创新创业、全产业链合作、学术科研、惠普公益四个维度推动国家人工智能战略在医疗领域的落地,构建一个医疗机构、科研团体、器械厂商、AI创业公司、信息化厂商、高等院校、公益组织等多方参与的开放平台,共同推进AI技术在医学影像、辅助诊断、医疗机器人等众多医疗环节的探索和应用。

腾讯AI Lab总监杨巍在会上发表了主题为「人工智能辅助诊疗系统面临的三大技术挑战」的演讲,介绍了腾讯在医疗AI方面的工作和思考,以下为演讲全文——

大家好,非常荣幸今天能有机会给大家汇报一下我们近期在医疗AI中的工作和思考。我是来自于腾讯AI Lab的杨巍。腾讯AI Lab是腾讯于2016年4月成立的企业级人工智能实验室,主要的研究方向是机器学习计算机视觉语音识别自然语言处理。除了AI基础技术研究之外,我们还会结合腾讯内外的应用场景做一些应用研究,包括游戏AI、社交AI、内容AI等方向,同时希望把研究成果通过开放平台和腾讯云共享给所有的企业和相关用户。我们也会结合一些行业场景,进行AI+X行业的应用研究,AI+医疗是其中最重要的一个行业。

AI技术应用到医疗行业,跟AI一样,其实并不是一个近期才有的新话题。早在1972年,利兹大学就开始研究将AI应用于胸部疼痛的辅助诊断系统。近年来,随着机器学习深度学习的发展,2016、2017年谷歌公司和斯坦福大学也都公开发表过一些具有重要影响力的研究成果,再次掀起了人工智能在医疗领域的研究热潮。2017年8月,腾讯 AI Lab 联合腾讯觅影发布了一些医疗AI相关的产品。

今天,我想谈的是人工智能辅助诊疗系统中三大技术难点。我们知道,医生在诊疗过程中有三个非常重要的能力。一是通过知识的学习和临床经验建立属于自己的医学知识;二是在对病人的诊断过程中一步步深入理解病情;三是收集到足够清晰的病情后做出诊断决策,判断是何种疾病。这三个能力对应着AI技术在辅诊中面临的三大挑战:医学图谱的建设、诊断模型的建设以及问诊模型的建设。

第一大挑战是医学图谱的建设。医生会通过大量的医学资料(包括影像资料、一些相关的文本资料和其他的实验室检查检验数据资料等),去学习、理解并归纳,形成自己内化的知识和经验。那么 AI 应该怎样去做这件事呢?我们希望 AI 也能去学习、理解并归纳这些医学知识,从而建设出 AI 能够理解的知识图谱

知识图谱的构建,可以简单分成三个步骤。首先,获取源数据。这里的数据包括结构化数据、非结构化数据和半结构化数据。其次,有了数据之后,要进行实体识别,比如说在一段医学文本里要知道哪些是疾病的名称,哪些是药品的名称,哪些是症状的名称,这些相当于是在整个图谱中的一个个点。最后,有了这些实体之后还要识别它们之间的关系,关系识别就是给两个点之间建立一条边,这个边就表示这两个实体的关系。

因此要构建医学知识图谱,最核心的技术是实体识别和关系识别。实体识别,其实是自然语言处理中一个研究了很长时间的经典问题,最早可以追溯到上个世纪90年代,当时还是基于词典或者pattern的方法,后来,随着机器学习深度学习的发展,实体识别技术有了很大的发展,同时效果也取得了显著的提升。


但是,我们在实际中发现直接把实体识别技术应用到医学文本中,会面临一系列的问题。第一个问题是缺少标注数据。机器学习技术依赖于大量的标注数据,而医学文本的标注往往依赖于医生的专业知识来参与标注,这就增加了获取标注数据的难度。第二个问题是目前文本挖掘都会面临的分词问题,通用的分词技术应用到医学领域中会存在很多相关的问题。


对于这两个问题,我们的模型做了两方面的优化与改进。因为医学文本里有标注的文本少,没有标注的相对比较多,比如大量的病历和医学文献、文章等。所以针对第一个问题,我们通过在没有标注的医学文本里去学习一个大规模的语言模型——这个模型可以理解为学习词与词之间的语义关系,从而一定程度上减少了对标注数据的数据量的要求。针对第二个问题,我们通过融合字和词的向量表示以及上面提到的语言模型来统一建模,从而减少分词错误造成的影响。优化后,相比传统的方法效果有了显著的提升。

第二个关键技术是关系的识别。与实体识别类似,这也是一个比较经典的自然语言处理问题,面临的主要问题也是缺乏大规模的医学实体关系的标注数据。随着深度学习技术的发展,网络越来越复杂,参数越来越多,需要标注数据的规模也越来越大,这也是目前深度学习技术面临的一个通用问题。


我们的解决思路是通过远程监督学习的方法来产生大量的自动标注数据,比如说经过少量的标注,能够知道疾病和症状的关系,把这个关系放在不同的医学文本中进行检索,假如一个句子里面同时出现疾病和症状,那么它的关系就是成立的,这样就构造了一个弱标注的样本集合,可以通过这个样本集去学习模型。大家一定会提出一个疑问,同时出现在一个句子里面的两个实体是不是一定就表达了这样的关系呢?答案显然是否定的,这个弱标注数据中一定存在噪声。具体来说,我们通过引入多示例学习的方法来减少噪声标注的问题。通过这两种技术的融合,我们在关系识别这个问题上,效果也比以前的传统方法有较大的提升。

AI技术在辅诊中的第二大挑战是诊断模型。当医生得到病人的相关信息之后(包括病例和检查的信息等),他需要对病人可能患有的疾病进行判断,我们把这个过程叫做诊断模型。实际中,我们发现医生在诊断时通常依赖于两点,首先是基于自己所学习和掌握的相关知识的推理,其次是基于自己的临床经验,判断当前的病情跟以前了解的病情间是否有一定的关联。鉴于此,我们可以把医生基于知识的判断,建模成对于医学图谱的推理问题;而把医生对经验的理解,建模成对历史病例的一个检索过程。


下面这张图概括了传统诊断模型的基本过程。左边是一个病人的病情,先抽取一些病症实体及其关系,然后进行图谱的相关推理,从而判断出最有可能患有的疾病。右边是一个基于病例的检索模型,通过把当前病情跟历史上已经确诊的病例作比对,并进行相似性计算,再结合相关的病症去进一步推理从而做出诊断结论。

这里我们可以看到传统诊断模型有几个明显的问题:一是病情的描述多种多样,医生的语言表达习惯不同,对同一病情的描述有很大差别,传统方法很难穷举;二是传统模型在判别时是知识和经验分开建模,而医生很多时候既依赖于对知识的判断又依赖于对相似病例的联想推理;三是医生在做判断的时候,并不不仅仅依赖于病例的文本数据,还依赖于医学影像、实验室检查检验等不同形态的数据,传统模型无法解决这个问题。

针对这三个问题,我们提出了一个融合多模态数据的深度诊断模型。如下图所示,解决思路可以概括为两点:首先,把文本、图像和检查检验等多模态数据输入到深度网络中进行统一编码,这样不管是文本数据还是其他模态的数据,都可以融入到模型里进行判断和决策。其次,我们一直在思考怎样把知识和经验更有效地融合在一起。目前的解决方法是,在建模文本信息时,除了当前病历的病史记录,我们还通过attention技术把医学图谱的信息融合到模型中,作为对疾病知识的补充。通过增加不同的模态数据表示以及融合知识和经验的建模以后,诊断效果有了一定的提升。

AI技术在辅诊中的第三大挑战是问诊模型。前面的诊断模型有一个假设,即假设医生能够很好地搜集到关于病人的所有信息。其实医生怎么收集信息,收集什么样的信息,作出什么样的判断,是一个有意思的、值得研究的问题。它可以与围棋的博弈类比——患者描述自己的基本信息相当于白子落子,医生得到信息后需要判断患者的病情,类似于围棋中黑子该落到哪里。而当患者进行了交互后,他要得到一个回应,这就类似于围棋中的一次博弈。整个问诊的过程就是一个序列决策的问题。

既然问诊过程跟围棋相似,那么能否借用AI在围棋中的强化学习技术来做问诊呢?因为强化学习是在围棋AI里效果非常好的模型,所以我们也尝试通过强化学习来优化问诊模型。优化目标有两个,一是如何高效收集患者所有的病情信息,减少不必要的交互;二是如何让最终的病情判断的结果更加准确。下图是我们RL建模的大概情况,由于时间关系就不展开细说了。

以上内容便是我们把AI技术应用在医疗辅助诊断中遇到的一些问题和解决思路。结合腾讯觅影平台,我们也发布了一些实际的产品:去年8月,我们将诊断模型用于食管癌筛查,去年10月和11月,将问诊模型用于疾病监控。另外,我们的医学图谱也将用于辅助医生的医疗科研项目,产品会在近期发布。

医疗AI是需要产学研共同深耕的领域,腾讯AI Lab会继续深耕医疗场景算法的研究,同时也希望能继续促进医疗行业专家的跨学科交流。未来我们希望能够提供筛查、诊断、治疗、康复等全流程的医疗解决方案,更好地赋能医生、辅助医疗,从而实现我们的愿景——Make AI Everywhere。谢谢大家。

腾讯AI实验室
腾讯AI实验室

入门
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~