宗成庆(模式识别国家重点实验室)作者龚力校对文婧 编辑

自动化所宗成庆研究员:108页PPT干货读懂NLP的过去与现在

【导读】自然语言处理是人工智能领域研究的核心内容之一,近年来取得了快速进展和广泛应用,在学术界和企业界备受瞩目。中科院自动化研究所自然语言处理团队负责人宗成庆研究员的报告从学科产生与发展、技术挑战、基本方法、应用举例、技术现状等多个视角对自然语言处理领域进行了全面梳理,并简要介绍了其团队近年来的主要工作,以及对该学科未来发展方向的分析和展望。我们希望这份报告能够帮助读者了解学科发展的脉络,激发研究兴趣,思考核心问题,领悟未来走向。

2019年5月10日,中科院自动化研究所自然语言处理团队负责人宗成庆研究员在智能化大厦第1会议室模式识别国家重点实验室内部交流会上作了题为“自然语言处理方法与应用”的学术报告。马颂德研究员刘成林研究员等老师和研究所近百名学生参加了报告会。近两个小时的报告活动座无虚席,讨论热烈,得到了很好的反响。

图1:活动座无虚席

图2:报告现场讲座首先对自然语言处理的基本概念、研究内容和理论方法进行了简要的梳理,介绍了自然语言处理这一学科的产生和发展,强调了计算机理解自然语言的科学意义和应用价值。接着,对自然语言处理面临的技术挑战进行了分析,包括自然语言中大量存在的未知语言现象、歧义词汇和结构、隐喻表达、以及翻译问题中不同语言之间概念的不对等性等,语义概念的表示和计算、说话人意图的理解和推理、以及语用场景的分析是当前面临的核心挑战。之后,宗老师介绍了自然语言处理的基本方法,通过两个具体实例展示了不同方法的实现过程及其存在的问题。他认为,虽然目前NLP技术在很多领域得到了成功的应用,但远未做到自然语言的深度理解,在这一领域仍然存在大量的难题和探索的空间,如现有的翻译模型无法准确处理篇章范围内的指代问题、无法区分由于细微文字或句法差异造成的句子语义反转、无法从译员的译后编辑过程中自动学习翻译知识等等。

图3:团队出版主要论著最后,宗老师介绍了自然语言处理团队的研究方向及部分研发成果。目前团队的主要研究方向包自然语言处理基础任务、机器翻译知识图谱信息抽取问答系统、情感分类、基于多模态信息融合的自然语言处理、类脑启发的自然语言处理方法研究等,团队近年来在上述各方向上都进行了深入研究和探索,产出了一批优秀成果,包括三部专著:《统计自然语言处理》、《文本数据挖掘》和《知识图谱》。在报告最后,宗老师对该学科未来发展的趋势和方向进行了简要分析和展望。

图4:讨论现场

完整版教程链接:

模式识别国家重点实验室后台对话框回复自然语言处理方法及应用,下载完整版教程。

宗成庆老师团队主页主页:

http://www.nlpr.ia.ac.cn/cip/introduction.htm

附PPT全文


THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门NLP
6
相关数据
统计自然语言处理技术

基于概率统计领域的理论进行自然语言处理, see NLP

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~