深度聚焦ACL 2017三大研究领域

问答系统

Question Answering System

随着人工智能的发展,图灵测试受到越来越多的挑战,问答系统(QA)就是其中一个尝试:试图让机器用准确、简洁的语言回答用户提出的自然语言问题。近年来,基于神经网络问答系统已成主流。在本届ACL,知识问答系统(KBQA)及检索式问答系统(IRQA)也继续在神经网络模型基础之上有新突破:一方面在知识问答系统中,在解决问题表示以及答案生成任务时,基于端到端神经网络模型被进一步优化;另一方面,检索式问答系统中,针对小规模文档精确检索以及针对大规模文档快速检索,有了新尝试和突破。

一、知识问答系统

1、Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning

如何让知识问答系统生成自然语言形式的答案目前仍是一大挑战,中科院发表的这篇文章给出了一种可融入外部知识库的端到端神经网络模型。为给出一个自然的答案,此模型使用了端到端的语言模型。同时为引入外部知识库,而引入了检索机制。针对需要结合多个事实回答的复杂问句,模型用三种不同模式获取词汇并进行选取:用拷贝方式取得问句中的实体、用预测方式产生让答案更自然的连接词、用检索方式获取相关事实并结合多个相关事实产生复杂问句的自然形式的答案。论文分别在模拟数据集和真实数据集上进行了模型检验,在自动评估和人工评估上都证实了其模型超出其他传统端到端模型。

2、An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge

基于神经网络的知识问答系统已取得瞩目成绩,然而传统神经网络方法在进行问句表示的同时,并没有考虑答案对其影响。这篇中科院与企业合作完成的文章中,作者提出了一种基于端到端的神经网络模型,特别地利用交叉注意力机制对问句和答案进行互相关注。一方面利用答案信息动态地进行问句表示,使得问句表示更加灵活充分;另外一方面也根据问题对答案不同方面的不同关注,对问句答案得分进行不同权重表示。此外,知识库全局知识被进一步引入用来训练Embedding并扩展词表,从而充分捕捉到知识库的全局结构信息,并缓解了传统模型中的词表溢出问题。在公开的数据集WebQuestions上,实验证明该方法能有效提升端到端模型实验性能。

二、检索式问答系统

1、Gated Self-Matching Networks for Reading Comprehension and Question Answering

检索式问答系统试图从文档中获取问题的答案。一般步骤是先从一众文档中检索相关文档,然后再进一步检索出相关篇章。由北大和微软合作发表的这篇文章重点解决后面一步,即阅读理解式的问答系统。文章基于端到端的多层神经网络模型从篇章中获取答案。

模型分为四部分:一是使用多层双向神经网络编码问题和篇章的语义向量表示;二是使用门注意力机制得到问题感知的篇章的语义向量表示;三是通过Self-Matching注意力机制提炼篇章的语义向量表示,从全部篇章中编码最终语义向量表示;四是利用Pointer-network来预测答案边界,从而得到最终答案。在Stanford发布的机器阅读理解比赛数据集SQuAD上,本文提出的模型的单模型和集成模型结果都分别排名第一。

2、Coarse-to-Fine Question Answering for Long Documents

大规模文档中检索答案在时间有效性上目前仍是一大挑战,由华盛顿大学和谷歌等多家机构联合发表的这篇文章中,针对大规模文档检索提出了一种高效检索并保持甚至提高目前最先进模型性能的架构 - 模型分层对文档检索。首先使用快速模型从大规模文档中选择问题相关的少量句子:使用三种不同句子简单表示方式处理大规模文档,然后利用Hard或Soft注意力机制得到文档的一个摘要表示,并使用三种不同方式选择少量候选句子,然后才用相对慢速的端到端神经网络模型从候选句子中产生最终结果。在WIKIREADING部分数据集上,实验结果显示此框架可以比基础模型检索速度高出3.5到6.7倍。

机器翻译 

Machine Translation

粗略统计,本届ACL有27篇机器翻译相关的论文(15篇长文+12篇短文)。我们重点关注其中三个较有代表性方向的相关研究工作,并总结了相关趋势。

一、基于句法的翻译模型

本次会议中,有关如何在神经网络翻译模型中引入句法信息的工作共有8篇,是本届会议中机器翻译领域的一个重要方向。受过去统计机器翻译发展脉落(从基于字符串的翻译模型到基于句法树的翻译模型)的启发,来自不同单位的研究者探讨了各种引入句法信息的方式,包括引入源端句法树或目标端句法树,使用成分句法树或依存句法树及至浅层组块结构。

腾讯AI Lab研究员参与的两个研究[1-2]分别探索了从源端和目标端引入句法信息的可能性。第一个工作通过使用一种简单有效的方式将句法树转化为句法标签序列,在不更改序列到序列模型框架的条件下将源端句法信息引入神经网络翻译系统中。第二个工作则是在解码器端引入一个额外的组块层,通过限定每个组块短语中的所有词共用一个组块层状态及源端上下文向量,不仅引入了目标端的句法信息,同时以一种比较巧妙的方式引入“短语”翻译。

* [1] Modeling Source Syntax for Neural Machine Translation; [2]Chunk-Based Bi-Scale Decoder for Neural Machine Translation

二、神经网络的理解和可视化

神经网络机器翻译模型自2014年被提出以来,一个主要问题是神经网络结构及运行过程的不可解释性,让研究者无法根据翻译出现的问题对网络结构进行针对性改进设计,从而引发一个重要问题 - 当前神经网络模型无法保证将源端语义内容无损传递至目标端,让生成的译文流畅度较好但忠实度不足,比如遗漏翻译或过度翻译错误。

本次会议有两篇论文尝试理解及可视化神经网络模型,其中一篇ACL Outstanding Paper来自清华大学NLP组[1],他们提出了一种新的可视化方法,通过计算神经网络中任意两个神经元之间的相关性,为分析、理解和调试神经网络机器翻译提供了可能性。

[1] Visualizing and Understanding Neural Machine Translation 

另一篇论文[2]则通过外在词性和形态标注任务来评判通过不同粒度方法训练得到的词语表示,分析神经网络翻译模型对词语的理解能力。

[2]What do Neural Machine Translation Models Learn about Morphology?

三、神经网络结构的改进

本次会议同样有多篇工作尝试对当前神经网络结构进行改进,其中三篇工作比较有代表性:

1、A Convolutional Encoder Model for Neural Machine Translation

在编码器端使用卷积神经网络(CNN)代替主流的递归神经网络(RNN),在效果相当的前提下速度提升近2倍。

2、Deep Neural Machine Translation with Linear Associative Unit

为当前主流的非线性Gating RNN(比如LSTM或GRU)提供了一种线性的可能替代(Linear Associative Unit),在深层神经网络中取得了较好效果。

3、Neural Machine Translation via Binary Code Prediction

通过将时间消耗最大的词汇表归一化过程(Softmax)替换为高效的二进制预测(Binary Code Prediction)问题,可极大提高翻译模型的训练和解码速度以及内存消耗。

四、三大趋势总结

趋势一:神经网络机器翻译的进一步可视化,建立起神经网络内部向量数字和自然语言结构的关联,为神经网络翻译模型提供更有效的理解和调试工具。

趋势二、神经网络机器翻译模型框架的优化。最近的工作表明递归神经网络并不是神经网络机器翻译模型的惟一选择,Facebook最近的工作使用CNN全面替代RNN,Google更进一步只用前向神经网络+注意力机制,均取得了速度和翻译效果上的进步。如果找到一种在效果和可解释性上更优的模型框架,是未来的一个重要研究方向。

趋势三、解决更通用的翻译问题。虽然当前神经网络机器翻译方法和过去的统计机器翻译方法差异很大,但很多翻译问题是相通的,所以解决通用的翻译问题也是未来的一个研究趋势。比如如何在资源匮乏领域构建好的翻译模型,如何进行篇章级翻译,以及如何在当前词级别的神经网络翻译模型中进行短语的翻译?腾讯AI Lab最近接收的两篇EMNLP 2017论文对后两个问题进行了初步探索。

信息抽取

Information Extraction

信息抽取主要是指从文本中自动抽取特定目标信息的技术。本次ACL大会有关信息抽取论文共计20多篇,涵盖实体识别、事件抽取、关系抽取、三元组抽取等多个具体任务,其中模型大部分还是以神经网络为主,但方法各有特点。我们从几个领域里分别选取了一篇代表性文章进行解读:

1、Deep Pyramid Convolutional Neural Networks for Text Categorization

该篇论文由腾讯AI Lab和RJ Research Consulting合作完成,主要介绍了一种轻量级的词级别深度卷积网络。该模型能有效捕捉文本的全局语义信息,并能在神经网络层数增加的前提下保证计算量不变。该模型在六个分本分类(主题分类和情感分类)的公开数据集中取得目前最优的结果。

2、Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

该论文是腾讯AI Lab研究员在中科院自动化所读博期间发表的三元组抽取工作,入选ACL了2017 Outstanding Papers。该论文提出了一种新型的标记策略,通过设计特殊标签可有效关联词语与三元组之间的关系。因此,基于此标记策略,成功地把三元组抽取问题转换为序列标注问题,提出了一种端对端的序列标注模型用于三元组抽取。

3、Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms

该论文是腾讯AI Lab研究员在中科院自动化所读博期间研究的事件抽取工作,提出了一种直接应用角色信息做事件识别的方法,基本思想是在事件识别过程中重点关注事件的角色词。作者为此提出了一个基于神经网络的事件识别模型,并通过有监督的关注机制实现上述目标。

4、A Local Detection Approach for Named Entity Recognition and Mention Detection

该论文针对命名实体识别任务提出了一种新颖的解决方式,并入选ACL 2017 Outstanding Papers。传统的命名实体识别方法是将该任务转换为一个序列标注的问题,本文不再从序列标注的角度出发,而是采用一种对输入文本中的文本片段分类的方式识别实体。该论文通过固定窗口的方式获得输入文本中的各片段,然后利用片段的上下文背景信息及片段本身信息对片段进行实体分类。该方法在几个公开的实体识别数据中获得了最优结果。此外,相比于序列标注的方式,该方法可以有效解决重叠实体的问题。

入门问答系统机器翻译信息抽取
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

统计机器翻译技术

随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章