作者:贾伟

对话MSRA副院长周明:回望过去,展望未来,NLP有哪些发展趋势?

春节假期刚刚结束,在这个时间节点,不免情不自禁地要回望一下过去,展望一下未来。

在过去几天机器之心已经发布了对数位顶尖学者的年度专访,针对不同领域的发展趋势做了深度对话。本文我们将介绍针对 NLP 领域的发展对微软亚洲研究院副院长、ACL 主席周明博士的专访,从宏观层次和技术层面探讨 NLP 的研究进展及未来发展趋势。

周明博士是微软亚洲研究院副院长、国际计算语言学协会(ACL)主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会前任主任、中国中文信息学会常务理事,哈尔滨工业大学、天津大学、南开大学、中国科技大学、北航大学等多所学校博士导师。

以下为与周明博士的对话,机器之心根据对话内容做了不改变原意的精简和编辑,以飨读者。

机器之心:据 Marekrei 的统计,在过去一年(2018 年),您参与发表的顶会论文数量在 NLP+ML 领域排名世界第一。您能否介绍一下您们团队在过去一年多的时间里取得了哪些成绩?

周明总体来讲,去年对我们团队来说是一个大丰收年。我们取得的成就可以归结如下:

第一项成就就是阅读理解(英文简称 MRC)。我们先后分别在 SQuAD 1.1 和 SQuAD 2.0 都取得了第一名的成绩。2018 年 1 月,我们提交的系统首次突破人类在 SQuAD1.1 测试集的水平,后来又有其他几个公司也先后超越了人类分数。这些系统体现了阅读理解的突破进展。最近我们在 SQuAD2.0 上,又超越了其他公司,获得了第一名。另外,在一个交互式、多轮 MRC 的系统 CoQA 上,我们最近提交(也是首次提交)的结果,也获得了第一名。

第二项成就是神经网络机器翻译(NMT)。我们在通用新闻报道测试集 newstest2017 的中-英测试集上,达到了可与人工翻译媲美的水平。这是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。这个是微软亚洲研究院自然语言计算组和机器学习组的同事们与微软总部的机器翻译产品部门通力合作所取得的一个成绩。我们提出了新的联合训练和对偶学习以便充分利用单语语料,然后发明了一致性规范和推敲网络改进解码能力。这些技术的综合应用大幅度提升了翻译水平。

第三项成就是语法检查(Grammar check)。我们用神经网络的编码和解码技术,采用了类似于神经网络机器翻译的技术,对语法检查进行了重要改进,可以自动生成训练语料,并多次解码逐轮求优。我们的结果在目前语法检查的三个公开评测集中都位列第一名。我们发表的相关 ACL 文章引起了业界的关注。

第四个就是基于神经网络语音合成(TTS)。我们与微软的语音产品部门合作把神经网络机器翻译技术首次应用于 TTS,大幅度提高了 TTS 质量。我们的技术在相关评测集合中表现最好。

除此之外,我们继续跟微软小冰合作。在原来的聊天引擎的基础上,大力提升了机器创作能力。比如写诗、谱曲、新闻等等,其中 AI 作词谱曲还上了中央电视台的《机智过人》节目,产生了很大的影响力。

机器之心:在过去几年中,您也一直积极参与到 NLP 顶会 ACL 的组织和管理当中,尤其今年您作为 ACL 的主席参与其中。在这个过程中,首先,您觉得从全局来看过去一年 NLP 领域有哪些新的进展呢?

周明第一,神经网络深入到 NLP 各个领域之中,由此带来的崭新的神经 NLP 的建模、学习和推理方法,在我刚才所介绍的典型 NLP 任务中都取得了很好的进展;第二,以 BERT 为代表的一系列预训练模型得到了广泛应用,体现了大规模语言数据所蕴含的普遍语言规律和知识与具体应用场景巧妙结合的潜力;第三,低资源的 NLP 任务获得了广泛重视并得到了很好的发展。

除了以上技术上的显著进步,我想值得一提的是就中国的 NLP 的进展迅猛引起了世界瞩目。中国计算机学会和中文信息学会等主要学会都对中国 NLP 发展做出了重要贡献。两个学会各自都举办了很好的学术会议、讲习班或者暑期学校。除此之外两个学会还合作举办了「语言智能高峰会议」,去年已经是第三届了。由于这些学会的努力,再加上学校、公司的努力,中国的自然语言发展,从顶会(ACL,EMNLP,COLING 等)论文发表来看,过去五年来连续居于世界第二名;仅次于美国,远远高于其他国家。

这里多说一句就是,中国计算机学会的国际自然语言处理和中文计算大会(NLPCC),它的国际化程度、规模和水平目前正逐渐跟世界顶级的会议靠拢。其录取率在 23% 左右,参会人数在 500 人以上且逐年有 20% 的增长。同时,大会拥有国际化的大会组委会和程序委员会,工作语言是英文。可以期待它会成为中国发轫国际一流 NLP 学术大会。我们在 NLPCC 大会上曾经表述过这样的两个目标:2020 年,中国的自然语言研究达到世界公认的先进水平;2030 年,中国的自然语言研究达到世界公认的顶尖水平。我相信 NLPCC 大会能促进这两个目标的实现。

此外,去年 ACL 还成立了亚洲 ACL 分会(AACL)。我很感谢 ACL 执委会的支持以及亚太地区各个国家和地区 NLP 同仁的鼎力支持。AACL 的成立标志着亚洲可以跟北美和欧洲在 NLP 发展上平头进步。AACL 亚洲分会成立后,可以在亚洲组织很多很多类似于 ACL 这样的活动,来提升亚洲的 NLP 发展水平。

所以你看,从中国到亚洲到世界,整个趋势是在不同的层次进行努力;中国的进步非常迅速,引起世界一些研究者的关注。我在此前撰写的一篇文章中指出,「NLP 进入了黄金的十年」。这是因为未来国民经济发展和人工智能对 NLP 带来的庞大的需求,大规模的各类数据可供模型训练,以神经网络 NLP 为代表的各种新方法将一步步提升建模水平,各种评测和各种开放平台推动 NLP 研究和推广的能力,日益繁荣的 AI 和 NLP 领域促进专门人才的培养等等。所以,未来十年是非常值得期待的。

机器之心:刚才您提到中国 NLP 进展迅猛。过去一年,中国在研究方面有哪些比较重要的突破呢?

周明除了我上面提到的微软亚洲研究院的那几项成果,中国的很多学校和公司也取得了很好的进展,比如中文的 MRC,百度科大讯飞跟有关学会或者高校合作都分别组织了大规模的中文的 MRC 评测。其影响力也超越了国界。其他国家只要做中文的 MRC,也来参加这些评测。

中国的机器翻译,也就是以中文为中心的机器翻译,现在在世界上处于领先水平。中文为中心,就是汉语到其他语言,中文到日文、泰文、马来文等的翻译,这些都是以中文为中心的。围绕着一带一路沿线各个国家的语言翻译,中国有很多学校和公司都做了非常了不起的工作。在以中文为中心的研究和实用化方面,都取得了很好的进展。

在聊天和对话方面。中国也位居世界前列。以中国出现的微软小冰为代表的聊天系统带动了全世界范围的人工智能聊天系统的研究和开发。小冰平均聊天轮数达到 23 轮,而且实现了多模态聊天。除了小冰,中国的很多互联网、电子商务、手机公司都开展了聊天机器人和语音对话系统的研发。用于搜索引擎、语音助手、智能音箱、物联网、电子商务、智能家居等,

刚才这三个趋势,我认为代表了过去两三年来中国 NLP 的一些典型进步。

机器之心:往未来看的话,您觉得 2019 年哪些研究会有更大的研究潜力?

周明如果要算的话,我觉得有三个点比较令人关注。

第一,刚才说的预训练模型。过去一年基本上大家都在谈论预训练模型。尤其 BERT 一出来,几乎所有任务都用 BERT,结果是很多任务的水平都获得提升。所以未来的一年我可以预料的是,预训练模型会持续热起来。包括怎么训练一个更好的预训练模型,包括怎么把预训练模型更好地应用在某一项具体任务里面。

第二,就是低资源 NLP 任务的研究。在无语料或者小语料的场合如何做一定的学习、建模和推理?进一步开发半监督学习、无监督学习方法,利用 Transfer Learning、Multi-task Learning 等等方法,把其他语言、任务或者开放领域的模型巧妙嫁接或者借用到新的语言、任务或者领域中来,在某一个具体的任务(比如机器翻译、阅读理解、问答等)上更好地体现出来。

第三,就是所谓基于知识,甚至基于常识的一些应用。就是如何把知识和常识建立起来,如何巧妙地加入到模型里头,然后如何评测知识和常识所带来的效果。我认为未来这一年这个可能会成为一个关注点。

机器之心:您在刚才提到的署名文章《NLP 将迎来黄金十年》一文中指出,NLP 将向四个方面倾斜,分别是:1)将知识和常识引入到目前基于数据的学习系统中;2)低资源的 NLP 任务的学习方法;3)上下文建模、多轮语义理解;4)基于语义分析、知识和常识的可解释 NLP。这些您刚才也有提到。您们团队这边在这些方面的研究思路是什么?

周明首先方法论上,我刚才所说的预训练模型,还有半监督学习,Transfer learning,多任务学习、我们会尽全力推进。然后在具体应用上,我们会把机器翻译、阅读理解、问答、聊天对话,可能还有一些其他的方面作为一个出发点。然后针对这些具体的任务,把刚才所说的那些方法实施一下,看看效果,然后不断迭代。

你看我们有两条腿走路,一个是方法,一个是应用,让它俩不停的迭代。应用给很多方法提供了挑战,然后很多方法给应用提供了新的一些想法,两者可以相得益彰。

此外,一方面,我们期待项目做得好,应用本身做得好,可以服务于很多的用户,通过微软的产品也好,或者奉献给开源社区也好。利用用户的反馈持续调整和改进我们的研究方向和思路。另一方面,方法论上,我们希望在新的神经网络架构下能够清晰地描述出来一些任务(例如自然语言理解)的理论体系,这包括 modeling、learning、reasoning。三个 ing 的东西实际上是自然语言作为一个学科,建立其背后最重要的技术体系和理论体系。现在在这三个方面都已经有很好的研究了,但是散落在很多地方,不太成完整的体系,所以我们希望通过做项目和研究,能够回答自然语言(尤其是基于神经网络计算的自然语言)的理论体系是什么。在理论体系支撑下,希望最后形成一个技术体系。我们将发布一些工具或者开源系统帮助国内外从事自然语言研究的人,让他们能够快速借鉴已有的方法,不再重复做研究,从而把时间用于去做一些他自己感兴趣的应用。

机器之心:在多模态融合方面您们团队也有较广泛的研究,发表了多篇论文。现在这个研究领域有什么进展?

周明首先多模态融合这个事情非常有意思。由于神经网络的进展,使得多模态(语言、文字、图像、视频)的编码和解码可以在同一个框架下统一进行了。由于内在语义不一样,以前真的不太清楚语言分析的结果怎么与图像分析的结果一起结合、一起应用;现在则可以用一种模式来建模,编码、解码。从而实现端对端的学习,可以一体化畅通无阻。

第二,应用上,也相应地产生了很多有趣的应用,比如说 capturing,就是对一个图像或视频理解之后用一段文字描写出来。过去一年或者两年有很多这样的研究。还有关于视频或者图像的问答,(CQA)。CQA 过去 1 到 2 年,有很多进展,包括我们组也做了一些 CQA 的工作,比如说引入常识知识来帮助提升 CQA 的水平。

第三,就是把图像识别的结果作为自然语言系统的输入,做写诗、作词、谱曲的工作。微软小冰写诗也是这样的工作。用户上传一个图片,小冰理解了这个图片,理解的结果可以用几个关键词代表。然后利用关键词再产生更多的联想关键词,进而把一首歌词或者一首诗生成出来。

机器之心:前几天看冯志伟老师的一个文章,标题为《语言学家在自然语言处理研究中大有可为》。语言学在 NLP 历史上起到什么样的作用?目前来看的话,语言学对 NLP 还有作用吗?

周明冯老师写的文章是从语言学角度来看待这个问题,我觉得角度很好,我们也关注这些问题。

过去来讲,自然语言处理刚起步的时候都是基于语言学的,所以语言学对自然语言处理的发展起到了重要的奠基作用,包括基于规则的 NLP 系统对句法分析和机器翻译的重要贡献。

但这几年,我们也注意到,由于大数据(带标的数据)越来越容易拿到了,所以通过机器学习(统计机器学习神经网络学习)的手段,就可以做端对端的训练。若只看结果的话,如果有充足的数据,似乎不用语言学的知识就能得到很好的结果。比如说基于神经网络机器翻译就没有用到语言学的知识。这是目前大家都看到的一个趋势。

但这并不代表语言学真的没什么用处。举个例子,低资源的翻译,此时双语语料很小,用常规的机器学习来得到的机器翻译系统,其翻译质量和泛化能力都非常不足。这时候可以考虑把语言学的知识融入其中,希望得到一个更好的翻译结果。从这一点意义上看,在半监督学习或者低资源的自然语言任务中,语言学知识加上人类的领域知识,肯定是能发挥作用的。

但是,我认为现在还没有一个特别好的方法把两者融合起来,也没有把语言学知识或领域知识给予充分的表达,以体现它的能力。这方面在研究上还有欠缺,但恰恰也是未来的一个研究焦点。

语言学对 NLP 研究有没有用?我觉得需要 case by case 地去看待这个情况。不能简单地说有用或者无用,要针对具体任务、所能得到的资源(数据、知识和规则)的数目和质量,来综合考虑各种方法。比如数据足够充分,可以倾向于端对端的自动学习,数据不够充分,且具备可用的知识和规则,则没有理由不去利用知识和规则,以快速建立系统。当系统运行起来,需要考虑不停地追加数据、知识和用户的反馈以改进系统。所以一个实用的 NLP 系统,是数据、知识和用户一起磨炼而成的。

机器之心:我们注意到微软亚洲研究院从 1998 年到去年正好 20 年;而您是 1999 年加入微软,到 2019 年也正好 20 年。这期间有哪些让您觉得特别难忘的事情?

周明去年微软亚洲研究院 20 周年,我们举办了一系列活动,邀请了很多老朋友(包括学术界的、工业界的)以及来自微软总部的同事们,大家聚在一起畅谈。这个时候正好是回顾过去,展望未来的时候。所以大家也就想,过去二十年到底发生了什么事,有哪些给我们留下深刻的印象。我这边也想了一下。

我想到的是,过去 20 年首先是一个不断发展的 20 年,整个微软亚洲研究院从无到有,从小到大,经历了一个波澜起伏的过程。有的时候我们发展很顺利,有的时候也经历了一些挫折。但是不管怎样,我们总是不断进步,发展得越来越好。

第二,我很荣幸经历了从第一届院长李开复到现在我们洪院长他们领导的所有过程。所以对我来讲,我既是这 20 年的亲历者、见证人,同时更有意义的是,我是一个受益者和学习者。这 20 年我学到了很多很多东西,我从清华加入到微软,发现确实有很多新鲜的东西值得学习。微软有很强的产品和市场团队,还有微软研究院以及微软亚洲研究院这很强的研究氛围。我作为一个员工,从各个角度获得了很好的学习和体验机会。具体来讲,无论研究方法、团队合作、产品意识、还有国内国外合作的境界。我觉得在这些方面都得到很好的历练。

如果说做的项目的话,举几个例子说说我们的历程。我们一开始是做微软的输入法,中文的和日文的。到了 2004 年开始做微软对联(注:微软亚洲研究院的 NLP 团队属于国内最早做对联和诗歌的),2008 年到 2012 年左右我们做了必应词典,还有 2012 年的微软研究院创始人 Rick Rashid 在「二十一世纪的计算大会」上演示了实时语音机器翻译系统,最近两三年我们参与了微软小冰的合作。这几年我们还做了神经网络机器翻译,以及机器阅读理解等等。我觉得每一个项目都有我们自己的特点。从开始立项,经过不停的方案调整,实验不同的方法。这个过程中,每一个人都得到了很好的历练,也提升了自己的研究能力。回顾这些事情,经历了一个又一个的项目,我和我的同事们感到很骄傲、很自豪。

但是,我想把视角从单纯的研究项目本身,投射到关乎 NLP 发展的更宽阔的天地。实际上微软亚洲研究院过去的 20 年为提升全球 NLP,尤其是中国的 NLP,发挥了独到的作用。作为一个大公司,一个负责任的公司,不应该只想到自己,还应该想想它能否正面的帮助这个领域发展,帮助所在国家和地区在这个领域的发展。做一个有意义的贡献者。拿 NLP 这个领域来讲,微软中国研究院(后改名微软亚洲研究院)刚成立的时候,中国只有一篇 ACL 文章,是清华大学黄昌宁老师的研究组写的。

在 1998 年微软亚洲研究院成立之初,我们就制定了与有关学会、学校合作的计划,通过暑期学校、联合实验室、学术大会、各项大学合作项目等一揽子计划共同提升 NLP 的研究水平。我们过去 20 年,在 NLP 领域就培养了超过 500 名实习生、20 名博士生、20 名博士后。这些人绝大多数都去了学校或其他公司。这些人也都逐渐成为了所在单位的技术核心或者领导人物;他们又带动了更多人的成长。所以通过二十年,中国的 NLP 发展越来越好,已经连续五年在 NLP 顶会例如 ACL 论文数量排名世界第二。

现在中国各大公司的 NLP 组,有世界级的专家带领,也服务于世界级的任务,无论是文章发表还是产品,都是世界级的水平。这个事实背后,我想说跟与微软亚洲研究院在中国恰逢其时地推动了这个领域的发展有巨大的关系。

微软亚洲研究院号称 IT 界或人工智能界的黄埔军校;我们也可以自豪地说,在 NLP 领域我们也是黄埔军校。所以我每念于此,我都感到非常地骄傲和自豪。

入门微软亚洲研究院周明NLP
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

科大讯飞机构

科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

机器之心机构

机器之心Synced创立于 2014 年,是国内首家系统性关注人工智能的科技媒体。

周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

BERT技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

物联网技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

多任务学习技术

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

暂无评论
暂无评论~