Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

2019新一代人工智能院士高峰论坛:百度CTO王海峰分享自然语言处理前沿进展

12月20-21日,由鹏城实验室、新一代人工智能产业技术创新战略联盟主办的“2019新一代人工智能院士高峰论坛”在深圳举行。作为国内人工智能平台建设最高水平的精英会,论坛聚集了数十位国内外院士专家及行业领袖,组成AI领域顶尖“智囊团”,聚焦AI最前沿技术动态和创新应用成果。百度首席技术官王海峰出席论坛,并发表题为《自然语言处理前沿》的主题演讲,向与会嘉宾介绍了自然语言处理相关研究的发展历史和趋势,以及百度自然语言处理技术和产业应用中取得的成果。

王海峰表示,自然语言处理(NLP)是用计算机来模拟、延伸及拓展人类语言能力的理论、技术及方法。近年来,算力持续突破、算法不断创新、数据爆发式增长,驱动自然语言处理技术飞速发展,呈现出很多新的变化:从传统 NLP进行层级式结构分析演变到直接的端到端语义表示;从过去局限于理解句子发展到现在多文本、跨模态的内容理解;而机器翻译经历了70年的发展,已经实现质量飞跃,从科幻理想落地现实应用。百度不仅在自然语言处理技术和产业应用中取得丰硕成果,更秉承开源开放、合作共赢的理念,构建了以飞桨深度学习平台为基础、集成语言与知识核心技术及多样化场景解决方案的开源开放大生产平台,赋能广大开发者技术创新,加速产业智能化转型升级。

以下为演讲实录:

各位院士,各位嘉宾,大家上午好!很荣幸再次来到由鹏城实验室、新一代人工智能产业技术创新战略联盟主办的新一代人工智能院士高峰论坛”。今天我的报告更偏学术一些,主题就是我本人从事了近30年的专业——自然语言处理

自然语言处理人工智能领域非常重要、非常热门的方向。随着深度学习技术的突破,人工智能的很多相关方向,尤其是与人类感知相关的语音、视觉等等,都取得了非常大的突破,在很多方面已经逐渐超过了人类的水平。而语言和知识这些和人类认知相关的技术,在深度学习的推动下也取得了很多进步,但是仍然有很长的路要走。所以今天我把主题聚焦在自然语言处理上。

简单来说,自然语言处理就是用计算机来模拟、延伸和拓展人的语言能力。大家都知道著名的图灵测试图灵测试就是和自然语言处理相关的测试。在国务院《新一代人工智能发展规划(2017)》中,自然语言处理也被列为共性关键技术。

回顾自然语言处理的历史,和人工智能的其他领域类似,早期自然语言处理更多是使用人工规则,需要领域专家、领域知识,并把这些知识建模到计算机系统里面去,开发成本和迁移成本非常高。后来有了各种统计方法,一定程度上可以实现自动训练、模型选择,并由特征工程师专门去设计各种特征。另一方面,大量的统计机器学习模型,在不同的应用中会取得不同效果,所以模型本身的选择都需要针对不同的应用,最后才能找到适合某一个应用最好的模型。

到了深度学习时代,这些问题变得更简单、更标准化和自动化,一套模型针对不同的数据就可以得到比较好的结果。所以,深度学习跟以前的机器学习模型相比,一个很重要的特点就是,这样一套东西可以适用于不同领域、不同应用,这个和我们的人脑也很像。其实每个人天生是没有专业属性的,只是后来逐渐在学习不同的知识、不同的专业。可以说我们人脑的能力也是一个相对通用的能力。

驱动自然语言处理技术突破的三大要素,和人工智能的其他方向也是类似的,就是算法、算力和数据。数据的井喷,算法的持续进步,算力的高速发展,推动了自然语言处理的技术突破。

一个多年研究自然语言处理的人,通常会涉及两个经典方向,一个是对一种语言进行分析理解,另一个是跨语言之间的翻译。而相应的,现在用深度学习的方法来解决自然语言处理问题的时候,我们把层级式的结构分析逐渐衍生到端到端的语义分析。我们知道,做自然语言理解和分析的时候,涉及到词、句、语法、语义各个层面,需要做基本的语法分析、做语义的理解,这些都可以端到端的进行语义的表示、学习、理解。另一方面,传统的自然语言处理主要聚焦在句子上,先把一句话分成词、短语、理解整句话,而现在,除了句子以外,我们延伸到多文本以及跨模态,跨模态的时候,又涉及到视觉、语音等相关的技术。还有一方面就是跨语言的翻译,翻译经过了70年的发展,从量变到质变,现在已经越来越可以大规模应用了。

先看分析,一个传统的自然语言处理的分析系统,以中文为例,首先要做分词,然后是词性标注、专名识别。西方语言一般会用短语结构文法,而中文传统上其实是没有这种规范的语言结构的,所以更适合做依存分析,做完之后再做语义分析,这是标准的范式。

基于深度学习自然语言处理就把整个范式变得很不同了,我们直接做LSTM,去表示、去建模,直接做语义的表示以及理解。

我把语义表示技术的发展做一个简单的总结。早期我们用向量空间模型。2001年有了基于神经网络语言模型,又经过了十几年的发展,才逐渐体现出它的价值,开始广泛应用。2013、2014年前后,Word2vec、Glove等词嵌入训练工具出现,基于词嵌入深度学习NLP技术有了突飞猛进的发展,出现了记忆网络模型、注意力机制、transformer框架等等,对语言有了更好的表示工具,从而开启了大规模预训练语义模型范式。

研究自然语言处理的人都知道预训练语言模型。它既有通用模型,也有不同的特定优化,比如面向生成、面向匹配、融合知识、模型压缩等等,还包括跨语言、跨模态。一个预训练的语言模型,首先要能让它自监督进行学习训练,这里一个很重要的技术就是预测被掩模的字词、实体等等。而这样一套模型经过不同应用的微调,也可以用于不同的任务,比如做情感的分析、文本相似度、命名实体识别等等,只要带上少量的应用任务数据,就可以在任务上得到更好的结果。

有了前面这些预训练模型以后,可以通过多层次的任务学习得到更多的知识。比如我们有先验的知识,可以进行统一的表征,构建多层次任务全面捕捉词法、结构、语义知识等等。词的层面有实体、短语、大小写等等的预测,结构层面可以做句子排序、句子距离计算等。语义层面也可以理解指代关系、关联关系、检索相关性等等。

基于深度学习的语义表示框架和知识,这两者结合起来就是百度这两年开发的ERNIE,它相当于在基本的基础框架上融入知识,这套框架又有用户的反馈,基于这些反馈可以进一步学习。所以它是一个持续学习的知识增强理解框架,左边是任务构建模块,右边是多任务预训练模块,中间是可持续地预训练。

在模型基础上,我们加入了很多百科知识,比如像百度百科这样全球最大的中文百科全书。把百科知识加进来,ERNIE的性能就会有一个提升。同时,我们在加入很多网页搜索知识的时候,性能又有提升;加入对话数据,也会持续提升。这是这个框架一个非常重要的特点。人如果要持续学习,可以持续进步,这样一个语言理解的系统,不断加入知识也能持续进步,这就保证了可以持续提升。

自然语言处理领域数据集GLUE中,ERNIE这套技术成为世界上第一个在榜单中突破90分的系统。智能问答、金融风控、视频推荐等等领域应用了ERNIE,都会有效果的显著提升。

说起自然语言处理,最基本的研究是基于一种语言的一个句子。那么有多文本、多模态的时候我们怎么做呢?这时候就涉及到我们要融入知识,涉及到怎么跟语音、视觉的模块进行配合,实现一个多文档、多模态的语义理解。

首先是阅读理解,让机器像人一样理解文本的内容。如果是人类,也是要来学习,我们读了一篇文章以后,理解了其中的内容,可以回答跟内容相关的问题,用回答问题来检阅阅读理解水平,这是最常见的方法。而我们做篇章级文本,基于知识的推理就实现了这样一个过程,比如右边是一个例子,这样一段话,如果人看了这段话以后都知道香格里拉的老板是谁,因为这段话里面有了答案。这些年来,阅读理解的技术有飞速的进步,早期用统计学习方法的时候,准确率大概在40%多的水平,近年来持续提升,运用了基于注意力机制的匹配,从40%多提升到70%多,现在已经达到95%左右。

多文档怎么做?我们提出一套V-NET模型,涉及到多文档校验的阅读理解模型+候选抽取和答案选择联合训练机制。在另外一个重要的数据集MS MARCO上,这套方法也取得了第一。如果只看一个传统单文档的阅读理解,通常会有几层,编码层、匹配层、答案边界预测层,结合这三层就实现单文档的阅读理解,而为了做多文档,我们又研究了一些新的技术,包括加进来答案内容预测层,这样可以预测答案,另一个又加了答案验证层,多文档可以做答案之间的相互验证,然后做联合训练,取得了非常好的效果。

在阅读理解中我们也把知识带进来,这就是我们做的基于KT-NET的方法,做文本表示编码的时候,涉及到问题以及文档里的词等等这些,要对它进行编码,而一个知识库,涉及到实体、关系,我们也要进行编码,这些编码之后要进行联合建模,形成融合的模型。这样一套方法在ReCoRD榜单也得到了第一名。此外,基于知识图谱和图神经网络的阅读理解也得到了非常大的提升。

前面谈到了从单文档到多文档,从只用自然语言处理的技术到融合知识等等。阅读理解还要有很强的泛化能力,比如说通过预训练模型可以学习到不同的语言知识,同时用这种多任务学习来增强不同任务的学习效果,这些也是我们过去这一两年在开展的比较新的研究。而基于这些,我们做了MRQA任务,一共有12项任务,其中10项都得到了排名第一。

再来看多模态,如果涉及到语音,又涉及到图像或者视频等等,这时候怎么弄?这时候首先要有一个统一的表征,跨模态通用语义理解,很重要的是跨模态语义表示方法,比如说多粒度注意力的图像—文本联合语义表示方法。

有了这些就可以和知识融合起来,比如说和知识图谱相融合。大家看左上角的图片,通过视觉分析可以看到里面有婴儿、有妈妈在拍背这样的基础事实,上面还有文字,基于文字理解可以捕捉到关键信息,比如说宝宝、打嗝、视频还有声音。基于捕捉到的这些信息,融合知识图谱,对这个视频就有了更全面的理解。有了这些理解以后,就可以得到一个结构化的语义理解,其中主题是母婴和育儿,场景是拍嗝等等。有了这些,对这个视频就不仅仅是靠视觉识别技术,而是会得到一个综合的、对这段视频结构化的语义理解,进而就可以做各种应用。

前面我讲的都是一种语言。这里为什么用“从理想走向现实的机器翻译”这样一个题目呢?因为机器翻译的任务由来已久,在现代计算机诞生之初,上个世纪40年代就有学者提出要用计算机来做翻译,而经过70多年的发展,很多当年看来遥不可及的东西,现在已经逐渐实现了。我列的这几段文字是我国机器翻译界的老前辈60年代写的一本书,那个时候他们就希望有一个翻译系统,可以让我们在人民大会堂和世界各国友人聚会的时候,无论哪个国家的人在上面讲话,都可以从耳机里听到自己国家的语言。这是典型的同声传译的场景。另外还有一些文本、书籍翻译的场景。这些发展到今天,很多很大程度上已经实现了。

我们看机器翻译发展的历史,早期和自然语言处理的历程类似,近30年前我刚做翻译的时候也是开发规则系统,对语言进行分析,到目标语言的转换、生成。后来这个过程被大大简化了,标准的统计机器翻译需要翻译模型、语言模型、解码器,翻译模型要做翻译的概率、衍生的概率、位置的概率等等,形成一系列的统计机器翻译系统。而这个系统出现以后,已经开始可以商业化了。比如,百度翻译2011年正式上线,现在每天都是数以亿计的翻译请求。2011年上线的时候,还没有神经网络翻译,也是用统计机器翻译。有了神经网络翻译以后有了进一步提升,整个过程从编码到解码也得到了很大的简化。百度2015年第一个上线了大规模的神经网络翻译系统。

这个是机器翻译质量提升的曲线,早期的时候,BLEU值达到四十几就已经很好了,但是随着机器翻译的进展,BLEU值已经突破六十,这是非常大的进步,而且越来越可以广泛应用了。我们提出用多种策略来提升中英翻译系统性能,把这些放在一起得到了好的效果,在WMT的中英翻译任务上也得到了显著领先的结果。

使用深度学习的时候,需要非常庞大的数据,但是做翻译的时候会面临一个问题,中英这两种语言之间有很多的数据,但是很多小语种之间没有那么多的数据,这时候怎么办呢?就要利用其他语言的资源来帮助语料稀缺的语种翻译。

基于这套技术,我们采取了一系列的方法,比如知识蒸馏,小语种聚类联合训练,使得小语种的翻译效果有明显提升。

同声传译在很多场景很重要,但是世界上只有几千位能做同传的人,译出率也只有60%,时延2-5秒,而且工作15-20分钟就需要休息一下。如果我们能用机器解决这个问题,显然是很有价值的事情。但是机器同传涉及到语音的识别、语言的翻译、合成,这里既有错误的累积,又有时间延迟的累积,我们怎么做呢?我们知道人同传的时候,不是要听很长一句话说完然后才开始翻译,如果是这样的话延时会很长。而标准的语音识别系统,也需要有完整的输入以后,有一个校对的过程,识别才能更准。翻译也是需要看到一句完整的话之后来进行翻译,这个延时是很长的。所以我们做这种机器同传的时候,研制了一种方法可以感知上下文,很大程度上可以预测上下文。人类做同传的时候,是听你前面几个字,估计你后面说什么就开始翻,我们也采取这样一套机制,这就涉及到自然语言处理的机制,可以相对精准预测到后面说什么,从而可以大大减少这种延迟,而且时延可调。我是要听到两个词就开始预测,三个词就开始预测翻译,还是更多词,这些是可调的,所以有很好的灵活性。基于此我们做出的同传,做到了端到端,从人说话到最终翻译出来合成声音大概是3秒时间,和人类基本持平,而且准确率也和人类同传基本持平,甚至是略高的水平。

我们进一步做这件事情的时候,又把一些新的技术,比如知识蒸馏技术,引入端到端的同传模型,然后把语音识别和翻译同步生成模型,从而进一步提升机器同传效果。

前面讲的是技术本身,这些技术一方面会应用于百度翻译、百度搜索这些产品,另一方面也全面开源开放出来,从而让这些技术能跨越大规模应用的鸿沟。

百度语言和知识图谱拥有完整的技术布局。在知识图谱层面包括知识挖掘、整合、补全、分布索引、存储计算;语言层面则涉及到词法、句法、语义、篇章、篇章生成等等。

随着百度自然语言处理技术能力增强,平台化的能力也在增强,技术能力开放出来让技术应用的门槛越来越降低。基于飞桨深度学习平台的开源开放大生产平台百度大脑,已经具备了很高的标准化、自动化、模块化的工业大生产特征。同时,百度开放出来的所有语言和知识相关的技术,是基于百度的飞桨深度学习平台,有不同的部署,可以应用于不同场景。

ERNIE语义理解套件,包括面向不同领域、不同任务的核心技术,也有相应的开源工具,包括微调工具、预测工具、压缩工具等等,可以做定制平台以及相应的应用任务。

ERNIE还可以通过定制化的方式,化繁为简,全面满足开发者在数据、训练、调优、部署等环节的需求。

百度也拥有UNIT理解与交互平台,可以支持各种对话的任务,各行各业的开发者已经在上面定制了7.4万多个技能,累计基于UNIT的交互已经超过1380亿。

此外还有智能创作平台,如果写东西,涉及挖掘选题、选择相应的参考资料、后期要做纠错等等,这个平台都可以支持。我们和人民日报、央视网都有很好的合作,已经累计超过2千万的调用量。

以上这些,都是基于百度语言与知识技术的开源开放平台,很多用户在上面完成了自己的任务。

理解语言,拥有智能,改变世界。我今天的报告就到这里,感谢大家!

产业百度王海峰自然语言处理
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

网页搜索技术

Web搜索引擎是一种软件系统,旨在搜索万维网上的信息。 搜索结果通常以一系列结果呈现,通常称为搜索引擎结果页面(SERP)。 该信息可以是网页、图像和其他类型的文件的混合。一些搜索引擎还挖掘数据库或打开目录中可用的数据。 与仅由人工编辑器维护的网络目录不同,搜索引擎还通过在网络爬虫上运行算法来维护实时信息。 不能被网络搜索引擎搜索的因特网内容通常被描述为深度网络(deep web)。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

向量空间模型技术

向量空间模型是一个把文本文件表示为标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

统计机器翻译技术

随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

多任务学习技术

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

答案选择技术

Answer selection是QA中的一个重要任务。基本定义是:给出问题q和该问题的答案候选池 (s是池大小),目标是从答案池中找到可以准确回答问题最佳答案候选 。这项任务的主要挑战是正确的答案可能不会直接与问题共享词汇单位。相反,它们可能只是在语义上相关。此外,答案有时很嘈杂,并且包含大量不相关的信息。

推荐文章
暂无评论
暂无评论~