2019自然语言处理前沿论坛:聚焦机器「读、写、说、译」,探寻NLP未来之路

人工智能的本质是让机器像人一样感知世界、认知世界。以语言和知识为研究对象的自然语言处理(NLP)技术是人工智能的核心问题之一。5月26日,百度、中国计算机学会中文信息技术专委会和中国中文信息学会青工委联合举办“2019自然语言处理前沿论坛”。

百度高级副总裁、ACL Fellow王海峰博士为论坛做开场致辞。他表示,“语言是人类思维和交流的载体,同时也是人类知识凝练和传承的载体。自然语言处理技术不仅仅需要算法、算力和数据,同时也需要不断地凝练知识,需要语言处理跟我们认识世界、改造世界的过程相结合,所以仍然有很多创新突破的空间。”他希望通过本次论坛,青年学者们能够增进交流,碰撞新的火花,一起推动自然语言处理的发展及产业化的进程,在人工智能时代帮助我们的生活变得更加美好。

本届论坛主题为“机器之‘读、写、说、译’—— 探寻NLP未来之路”,包含语义计算、自动问答、语言生成、人机对话和机器翻译5场专题报告,以及围绕上述专题的嘉宾对话环节。本论坛汇集学术界和工业界的青年专家学者,共同探讨NLP领域的最新技术进展、产业应用及发展趋势,旨在促进产学研深度融合,推动自然语言处理技术进步。

“语义计算”研究如何利用计算机对自然语言的语义进行表示、分析和计算,使机器具备语义理解能力。哈工大车万翔教授介绍了动态词向量的技术进展,该技术可以根据上下文更好地处理一词多义现象,大幅提高自然语言处理多个任务的准确率复旦大学邱锡鹏副教授介绍了表示学习的最新进展,分析和对比了当前主流模型的基本原理和优缺点,探讨了如何更好地融合局部和非局部的语义关系,如何更好地加入先验知识,以及针对目前复杂网络模型的简化和加速。北京大学孙栩研究员开展了关于稀疏化深度学习的研究,提出简单有效的算法来简化神经网络,仅用全梯度的子集来更新模型参数,大幅降低了训练和解码复杂度。百度主任架构师孙宇介绍了百度最近提出的知识增强语义表示模型ERNIE,基于实体、短语等知识进行建模,在语言推断、语义相似度等多个任务上取得了大幅提升。

“自动问答”专题探讨机器的“阅读”能力,让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解可以使机器具备从文本数据中获取知识并运用知识的能力,是问答领域的关键技术之一。中科院自动化所副研究员刘康介绍了文本阅读理解的基本框架和方法。他表示,构建合理的数据集对于阅读理解任务非常重要,而如何更好的融合知识是未来的重要研究方向。百度资深研发工程师刘璟介绍了深度融合文本表示与知识表示的模型KT-NET,以及百度发布的面向真实应用的中文阅读理解数据集DuReader 2.0。基于此数据集,百度、中国计算机学会和中文信息学会连续两年举办了机器阅读理解评测,共同推动中文阅读理解技术的进步。

“语言生成”专题聚焦如何让计算机像人一样使用自然语言进行表达和创作。北京大学万小军教授介绍了自然语言生成(NLG)技术和应用的最新进展,指出自然语言生成目前面临两大挑战,首先是对生成文本的质量评估,其次是平行数据的缺失。如果这些问题解决了,将极大地推动自然语言生成的发展。他同时也表示,目前的文本生成与人类还有较大差距,尤其是在综合利用知识的方面。百度主任架构师肖欣延介绍了百度在语言生成技术方面的创新和应用,提出了基于规划、基于信息选择、端到端等多种模型,在文章生成、摘要生成、诗歌生成等任务上取得良好效果。此外,百度还推出了智能写作平台,通过提供自动写作和辅助写作能力,提升内容创作的效率和质量,为智能创作领域提供更多可能。

“人机对话”专题探讨如何让计算机和人类进行对话交流。清华大学副教授黄民烈回顾了人机对话的发展历程,经典的对话系统大多采用强语义方法,而现代神经网络方法则发展了弱语义方法,基于数据驱动和概率统计。语义理解始终是人机对话中需要攻克的难题,如何更好的结合数据和知识,是该领域需要共同努力的方向。百度主任研发架构师孙珂介绍了百度最新发布的智能对话系统训练与服务平台UNIT 3.0,从搭建技能、构建知识、整合技能与知识三方面着眼,发布了多个核心技术和工具,大幅降低了对话系统的定制成本。 

机器翻译”是指利用计算机进行不同语言之间的转换和生成,是自然语言处理领域中填补语言鸿沟的重要技术。清华大学副教授刘洋首先介绍了神经网络机器翻译的基本原理,并指出,尽管该方法取得了较大进步,但是仍然面临许多挑战。刘洋介绍了他们在知识驱动、可解释性、鲁棒性神经网络机器翻译方面的最新进展。百度人工智能技术委员会主席何中军介绍了机器同传的主要挑战和最新进展,指出目前机器同传面临技术、数据、评价三个方面的挑战。结合百度的研究成果,在现场使用了最新研发的百度翻译AI同传。现场听众使用手机扫描会议二维码,可以实时收听译文。

5大专题探讨结束后,车万翔、邱锡鹏、黄民烈、刘洋以及百度高级科学家吕雅娟、百度PaddlePaddle总架构师于佃海就“NLP的未来之路”展开高端对话。围绕“最近5年NLP的突破进展”、“NLP的发展趋势及未来5-10年的突破方向”等内容进行了精彩的分享。他们认为5年来,NLP在数据、模型、算法等多方面取得了突破性进展。中国NLP在学术界的研究及工业化应用处于国际前沿,近年来入选领域国际顶级会议的论文数量急剧增加,论文质量也在不断上升。同时,我们也需要进一步加强前瞻性和原创性的工作,中国NLP的发展潜力不可小觑。谈及未来发展趋势,嘉宾们表示未来进一步融合知识、多模态、探索更类人的学习机制等会带来NLP领域的进一步提升。

自然语言处理被誉为人工智能皇冠上的明珠。随着自然语言处理能力的不断发展,人工智能也在不断的进步。自然语言处理技术被广泛应用于智能搜索、深度问答、对话系统、智能写作、机器翻译等领域,为广大用户提供更智能的体验,满足用户对信息和服务的需求,同时也越来越多地在金融、服务、零售、制造业等行业中应用,促进产业智能化发展。NLP的未来之路是什么?或许没有标准答案。但是我们一直相信技术的力量。探索未来无限的可能,正如王海峰所言,随着技术发展,人们会越来越深入地理解自然语言、掌握知识,推动人工智能发挥更大的价值,为人类社会发展提供更大的助力。

产业自然语言处理
6
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
刘康人物

中国科学院自动化研究所副教授,研究领域:自然语言处理、信息抽取、问答系统、信息检索、机器学习。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
黄民烈人物

黄民烈,清华大学计算机科学与技术系副研究员。人工智能、深度学习、机器学习方法与应用;自然语言处理,自动问答,人机对话系统,情感分析,社交数据挖掘。

推荐文章
暂无评论
暂无评论~