自然语言处理领域的进展(一)导言

本文译自:Julia Hirschberg, Christopher D. Manning. Advances in Natural Language Processing. Science Magazine 2015. vol. 349 no. 6245 (261-266). 译者:赵怀鹏(哈工大SCIR硕士生)校对:车万翔 

摘要

自然语言处理(Natural Language Processing,NLP)利用计算机技术来学习、理解和生成人类的语言。早期的自然语言处理研究主要集中在语言结构的自动化分析上,并开发出了一些基础的技术,例如机器翻译、语音识别、语音合成等。现在的研究者改善并在真实的应用中利用到了这些技术,研制了语音对话系统,语音到语音的翻译引擎,社会媒体中健康和金融信息的挖掘,以及为产品和服务提供情感识别功能。我们将会描述在这个飞速发展的领域所取得的成功和面临的挑战。

 

导言

在过去的20年,计算语言学既发展成一个激动人心的科学研究领域,也成为一项和消费者产品紧密结合的实用技术(例如苹果的Siri和微软的Skype翻译系统)。四个关键要素促成了这些发展:(i)快速增长的计算能力,(ii)大规模的语言学数据,(iii)机器学习技术的巨大发展,(iv)对人类语言结构和它在社会环境中的应用有了更加丰富的理解。在这篇综述中,我们将描述一些目前自然语言处理研究所感兴趣的应用领域,以及面向大数据的计算方法,这些方法主要基于那些结合了语言知识的统计分析和机器学习的最新技术。

 

计算语言学,也称为自然语言处理(Natural Language Processing,NLP),是计算机科学的一个子领域,关注于利用计算机技术来学习、理解和生成人类语言。计算语言学系统可能包含着多重目标:帮助人人交流,例如机器翻译(Machine Translation,MT);帮助人机交流,例如对话系统;或者通过分析和学习大量的在线人类语言来造福人和机器双方。

 

在计算语言学的最初几十年工作中,科学家们尝试为计算机写下了大量的人类语言的词汇和规则。这被证明是个非常困难的任务,因为人类语言具有多变性,歧义性,并且与上下文有着相关性。举例来说,“star”既能表示天文学中的星体,也能表示明星,而且这个词可能是名词也可能是个动词。再举一个例子,“Teacher strikes idle kids”有两种可能的解释(译者注:两种解释分别为:老师击打了闲散的孩子和老师罢工让孩子无事可做),这取决于句子中每个词的词性和语法结构。从20世纪80年代开始,但更广泛的在90年代,NLP研究者开始在大规模的语言数据上建模。早在机器学习的能力被广泛认知和“大数据”这个词被引入之前,基于统计或者语料库的自然语言处理就率先使用了大数据并取得了显著的成功。

 

基于统计的自然语言处理的一个核心发现就是利用词,词性序列,或者简单模板的方法通常能够在大数据训练集下取得显著的效果。很多文本和情感分类器仍然仅基于文档所包含的词集(“bag of words”),并没有考虑句子或者篇章的结构和含义。要想在这些简单的基线基础上获得准确率的提升是非常困难的。尽管如此,现在性能最好的系统还是利用了复杂的机器学习方法以及对语言结构的丰富理解。现在有一些高性能的工具,能够提供语法和语义信息,甚至还能够提供篇章信息。一个典型的例子就是Stanford CoreNLP1, 它能够提供一个标准的NLP预处理流水线,包括词性标注;命名实体识别(例如人名,地名,机构名);句子语法结构分析;名词短语之间的指代关系识别(图1)。

图1:很多语言技术工具都是先进行语言结构分析。

这里我们展示了Stanford CoreNLP的结果。从上到下,这个工具首先给出了每个词的词性,然后判断一个词或短语是不是命名实体,然后给出了实体的指代关系,最后利用依存句法分析给出了句子的语法结构。

 

历史上,两方面的发展使得NLP初步转向大数据领域的研究。首先是早期数字格式语言资源的出现,特别是成立于1992年的语言数据联盟(Linguistic Data Consortium,LDC)2。现在大量数字文本都能够轻易在网络上下载到。可用的有标注数据包括大量的语音和文本语料库,这些语料库标注了词性,句法结构,语义标签,命名实体,对话动作(声明,提问,请求),情绪和篇章结构(主题或者修辞结构)。其次,公开评测也激励大家去提升NLP任务的性能。最开始这些评测大部分都是由美国国防部(U.S. Department of Defense)资助和组织的,但后来都是由研究社区自己来组织,例如CoNLL评测3。这些评测成为当代机器学习建模和分析竞赛的先驱,例如Kaggle4,组织评测的公司和研究人员提交他们的数据,来自世界各地的统计学家和数据挖掘研究人员共同竞争产生最好的模型。

 

目前,NLP的主要限制是大部分NLP资源和系统都是面向资源丰富语言(high-resource languages,HRLs),例如英语,法语,西班牙语,德语和汉语。相反,很多资源稀少语言(low-resourcelanguages,LRLs)例如印尼语,孟加拉语,旁遮普语,宿务语和斯瓦希里语,虽然有数百万的人在读和写这些语言,但是并没有相应的资源和系统。自然语言处理研究社区未来的一个挑战就是如何为数以千计的语言开发资源和工具,而不仅仅局限于少数几种语言。

REFERENCES AND NOTES

1. C. D. Manning, M. Surdeanu, J. Bauer, J. Finkel, S. J. Bethard,D.McClosky,“The Stanford Core NLP Natural Language Processing Toolkit,” in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, System Demonstrations (Association for Computational Linguistics, Stroudsburg, PA,2014), pp. 55–60.

2. Linguistic Data Consortium, www.ldc.upenn.edu/.

3. CoNLL Shared Tasks, http://ifarm.nl/signll/conll/.

4. Kaggle, www.kaggle.com.


本文来源于哈工大SCIR

原文链接点击即可跳转

产业入门NLP语音助手语音识别
哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

推荐文章
机器阅读理解打破人类记录,解读阿里iDST SLQA 技术机器阅读理解打破人类记录,解读阿里iDST SLQA 技术
王艺王艺
1
计算机科学领导者:卡内基梅隆大学ACL2016论文汇总计算机科学领导者:卡内基梅隆大学ACL2016论文汇总
机器之心机器之心
知识图谱的发展概述知识图谱的发展概述
哈工大SCIR哈工大SCIR
2
返回顶部