腾讯医疗AI实验室:3篇论文被国际顶尖会议收录

近日,腾讯在医疗 AI 领域的学术研究获得实质性进展,旗下医疗 AI 实验室共有 3 篇论文分别被 KDD 2018、SIGIR2018 、COLING 2018 三个国际顶尖学术会议收录,论文的主要研究方向为医疗知识图谱中实体关系的发现和应用。

在医疗领域,专业知识和病人信息均存储在复杂多样的文本中,如医疗文献、临床病例等。文本数据中的多重表达形式和噪声给基于文本数据的AI医疗服务带来挑战和困难。知识图谱能够以结构化的形式存储医学中实体以及实体间的关系,能将信息表达成更容易被计算机处理的形式。腾讯医疗 AI 实验室利用知识图谱及其相关技术,如自然语言处理、知识抽取、信息检索、知识表示与推理等,从医疗文献、医学指南和临床病历中挖掘隐含的医学知识,将大数据转化为知识图谱,使得知识查询和更重要的形式化推理变得可行,有医学依据,辅助临床决策,赋能基于人工智能的医疗产品。

此次腾讯医疗 AI 实验室研究成果入选的三大学术会议分别是:SIGKDD,数据挖掘研究领域的顶级国际会议;SIGIR, 信息检索领域的顶级国际会议;COLING,自然语言处理领域的重要国际会议。

腾讯医疗 AI 实验室负责人范伟介绍,“医疗知识图谱是推动人工智能应用于医疗领域的核心驱动力之一,如何更好地利用自然语言处理、知识抽取等相关技术,从形式多样、信息杂乱的各种医疗数据中,抽取结构化的医疗知识,结构化存储实体的详细属性以及实体之间的关系,我们在不断优化提出问题并尝试给出新的解决思路和研究方法。”

以下为收录的三篇论文概要

1. 入选 KDD 2018:基于生成模型的医疗实体关系抽取(Onthe Generative Discovery of Structured Medical Knowledge

研究成果:创造性地从生成模型的角度研究医疗实体关系,减少了对语料数据和专家标注的需求

在医疗知识图谱中,实体三元组以结构化的形式描述了医学领域中实体间的各种关系。为了获得医疗领域实体三元组,现有方法大多需要搜集大量语料,或过多依赖于专家的标注。如图 1 所示,本文提出的算法 CRVAE (Conditional Relationship Variational Autoencoder利用已标注的实体三元组在自然语言表述上的共性和差异,对多种医疗实体关系类内的数据分布进行联合编码,进而从生成模型的角度去发现未被标注的关系实体三元组。该方法减轻了传统判别模型对于外部资源的过度依赖,并且不依赖于医疗实体关系类间的差异进行建模。

实验表明,算法 CRVAE 不仅能够在外部资源有限的条件下,以 92.91% 的支持度生成属于某个特定医疗关系的实体三元组,其生成的结果拥有 77.17% 的准确率且生成结果中有 61.93% 的样本未曾出现在训练数据中。

在未来,我们将尝试利用生成模型进行不同粒度、不同医疗子领域的无监督知识发现。同时,我们也期待将生成模型作为一种有效的数据增强方式,赋予医疗领域更多人工智能的应用。

▲ 图1. CRVAE模型架构图示

2. 入选 SIGIR 2018:具有知识感知能力的答案排序模型(Knowledge-aware AttentiveNeural Network for Ranking Question Answer Pairs)

研究成果:证明了利用知识图谱可显著提高问答系统的性能

在基于人工智能的医疗产品中,对话系统作为最终呈现形式有着广泛的应用。答案排序是对话系统中的重要部分,最近受到越来越多的关注。然而,已有相关工作在除关注上下文之外,对起着重要作用的背景知识却关注很少。对此,本文提出了 KABLSTM(Knowledge-aware AttentiveBidirectional Long Short-Term Memory),这是一种具有知识感知能力的双向长短记忆模型,它利用知识图谱引入的背景知识来丰富问答的表征学习

如图 2 所示,本文开发了一个知识交互式学习架构,其核心是一个上下文引导的注意力神经网络,可将知识图谱中的背景知识嵌入整合到句子表示中;最后结合知识型注意力机制模块,对问题和答案中的各个部分进行有效的相互关联。在 WikiQA 和 TREC QA 数据集上的实验结果证明了该方法具有一定有效性。在此工作中,利用知识图谱来辅助问题和答案的表示学习。在后续的工作中,我们将研究利用知识图谱进行直接推理,来帮助医疗问答系统

▲ 图2. KABLSTM模型架构图示

3. 入选 COLING 2018:基于远程监督具有协同消噪能力的实体关系抽取模型(CooperativeDenoising for Distantly Supervised Relation Extraction

研究成果:创造性地提出能够减少数据噪声对实体关系抽取性能影响的方法

知识图谱的构建过程中,远程监督(Distant Supervision)能够减少对标注数据的需求,因此适合从非结构化文本中进行关系抽取。然而,该方法有可能受到训练数据噪音过大的影响,性能受到限制。为解决这个问题,本文提出了一种协同消噪的模型 CORD (COopeRative Denoising framework),该方法由两个神经网络和一个协同模块组成,如图 3 所示,两个神经网络分别在文本语料库和知识图谱领域进行学习,再通过一个自适应的双向蒸馏模块(adaptive bi-directional knowledge distillation)完成它们间的相互学习,达到消除噪声的目的。实验表明,该方法在噪声较大的数据上有较明显的效果提升。

在医疗领域,医疗文本、医疗影像等不同模态、不同来源的数据包含着互补的丰富信息。在后续研究工作中,我们将利用多模态、多源数据进行更加可靠的去噪和医疗知识提取。

▲ 图3. CORD模型架构图示

医疗知识图谱作为人工智能应用于医疗领域的前沿课题,对推动“AI+医疗”的发展有着重要意义,将为医疗行业的发展带来新的契机。当前,腾讯在“AI+医疗”领域的学术研究在稳步前进并获得国际学术界的认可,有利于更好的推动“AI+医疗”产学研结合,加速医疗 AI 应用落地,为医疗赋予 AI 动能。

腾讯医疗 AI 实验室是腾讯医疗专为医疗领域打造的人工智能实验室,采用美国-中国双中心模式,目前在硅谷、北京、深圳设立了三个分支。主要研究方向包括:通过研发临床辅助决策支持系统向各级医务工作者提供服务,以提高医生用户在医学科研、患者诊疗、疾病防控等方面的工作效率;通过研发基于无可穿戴传感器纯视频分析技术的运动障碍性疾病评测系统,可用于帕金森病的日常评测、脑瘫患者术前步态评测等方面,实现自助评测,以提高医生工作效率,减低患者评测成本;通过研发医学知识引擎,构建权威全面的医学知识库,并提供对外知识库查询等平台化服务,降低医疗人工智能辅助决策类产品的技术门槛,通过知识共享的方式与合作伙伴共同打造医疗AI的技术和服务生态圈。实验室的目标是通过世界领先的 AI 技术,构建良好的技术生态,服务于医患双方,提高工作效率、优化就医体验,缓解医疗资源分布不均等问题,同时着重落实分级诊疗国策。

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门腾讯医疗AI实验室KDD 2018SIGIR 2018COLING 2018
2
相关数据
自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

判别模型技术

在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。 判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率P(y|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑x与y之间的联合分布。 在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine), 提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章