国际计算语言学协会 (ACL,The Association for Computational Linguistics),是世界上影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。第 55 届国际计算语言学协会(ACL)年会将于 7 月 30 日-8 月 4 日在加拿大温哥华举行。
ACL 会议是计算语言学领域的首要会议,广泛涉及自然语言的计算方法及其各类研究领域。ACL 2017 除了主要会议之外,还如同其他顶级会议一样包含研讨会、专题报告、研习会和演示等。
4 月 22 日,中国中文信息学会青年工作委员会在北京举办了一场「ACL 2017 论文报告会」,邀请了国内部分被录用论文的作者针对其论文进行主题报告(参阅:ACL 2017 中国研究论文解读:读懂中国自然语言处理前沿进展)。从近日 ACL 2017 官网释放的消息来看,中国有五篇论文入选 ACL 2017 Outstanding Papers。
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
论文作者:陈新驰、施展、邱锡鹏、黄萱菁(复旦大学)
Visualizing and Understanding Neural Machine Translation
论文作者:丁延卓、刘洋、栾焕博、孙茂松(清华大学)
Abstractive Document Summarization with a Graph-Based Attentional Neural Model
论文作者: Jiwei Tan、万小军(北京大学)
Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
论文作者:郑孙聪、Feng Wang、Hongyun Bao(中科院自动化研究所)
A Two-stage Parsing Method for Text-level Discourse Analysis
王义中、张素建(北京大学)
PaperWeekly 近期对其中的两篇获奖论文进行了详细的解读(部分论文未能找到公开地址)。
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
论文作者:陈新驰、施展、邱锡鹏、黄萱菁(复旦大学)
特约记者:郑华滨(中山大学)
在中文信息处理中,分词(word segmentation)是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词。虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题。
如今 90% 乃至 95% 以上的中文分词准确率已不是什么难题,这得益于模型和算法上的不断进步。在传统 CRF 中,特征需要人工设定,因此大量繁杂的特征工程将不可避免。近几年深度学习的发展给很多研究问题带来了全新的解决方案。在中文分词上,基于神经网络的方法,往往使用「字向量 + 双向 LSTM + CRF」模型,利用神经网络来学习特征,将传统 CRF 中的人工特征工程量将到最低,如下图所示,其中:
字向量层(对应 Embedding Layer)能够把离散的汉字符号转化为连续的向量表示
双向 LSTM 网络(对应 Feature Layer)能够在考虑时序依赖关系的同时抽取有用的文本特征
最后的 CRF 模型(对应 Inference Layer)则建模了两个相邻输出的概率制约关系 强大的样本表示、特征抽取和概率建模能力,使它成为如今最主流的中文分词模型。
图 1:分词模型
除了模型和算法,中文分词准确率的提高更得益于丰富的公开训练语料集。然而,因为中文分词这个问题本身并不存在一个完全统一的标准,众多语料集之间都或多或少存在不一致的地方。由于语言学家定义了分词的多种不同标准,因此对于同一串汉字,不同的人可能会给出不同的切分结果。比如「姚明进入总决赛」这句话,在 CTB 和 PKU 两个语料集中就是不同的切分标准,前者认为「姚明」和「总决赛」是一个整体,后者却认为姓和名应该分开、「总」和「决赛」应该分开:
图 2:语料不一致
中文分语料丰富,每一份中文分词语料都是经过昂贵而耗时的人工标注得到的。又因为每份语料间的标准多少有些不一致,因而以往在训练一个分词模型的时候只会用一份语料,而置其他语料于不顾,这无疑是浪费,弃之可惜。所以现在一些研究者就在思考怎么同时利用多个语料集。如果能够想办法利用多个分词标准语料集的信息,就能让模型在更大规模的数据上训练,从而提升各个分词标准下分词的准确率。最近,来自复旦大学的陈新驰同学、施展同学、邱锡鹏老师和黄萱菁老师就提出了一个新框架,可以利用多标准的中文分词语料进行训练。实验在 8 个语料集上进行训练,并在 8 份语料上都提升了准确率。他们的论文 Adversarial Multi-Criteria Learning for Chinese Word Segmentation 发表在今年的 ACL2017 上。值得一提的是,这四位作者中的陈新驰同学、邱锡鹏老师、黄萱菁老师同时也是上述「字向量 + 双向 LSTM+CRF」中文分词模型最初原型的提出者。
接下来我们就来一步步走近这个框架。首先,在多份语料上训练可以看成一个多任务学习(Multi-task Learning)问题,在 8 份语料上的模型训练就是 8 个任务。这些任务之间显然存在着很大的共性,所以可以设想用单独一个「字向量 + 双向 LSTM + CRF」模型来训练,但是如前所述,这些任务之间存在不一致,所以又必须考虑用一部分模块来建模它们之间的差异部分。论文中具体采取的方案是再拿出 8 个特定于具体任务的私有 LSTM 模块,跟原来共享的 LSTM 网络模块一同构成图 1 中的特征抽取层,变成如图 3 所示的结构。在图 3 中,两个灰色的私有 LSTM 模块分别负责捕捉 TaskA 和 TaskB 的任务私有特征,中间黄色的共享 LSTM 模块负责捕捉任务共享特征,然后再把私有特征与共享特征拼接到一起,输入每个任务私有的 CRF 模块。整个框架总共有:
1 个共享的字向量模块
1 个共享的 LSTM 模块
8 个私有的 LSTM 模块
8 个私有的 CRF 模块
图 3:多任务框架
在尝试用以上多任务框架进行训练后,作者发现有 7 个语料上的分词准确率确实得到了提升,但是 MSRA 语料的准确率下降。为什么呢?作者分析认为这可能是由于共享 LSTM 模块所捕捉的特征并不「纯净」,里面可能混入了某个任务的私有特征,这些特征对 MSRA 语料没有用,甚至可能反倒有害,才导致其准确率下降。
根据上述假设,我们似乎应该想办法把私有特征从共享的 LSTM 模块中「剥离」出去,保证该模块仅仅抽取对所有语料都有用的特征,而论文作者就非常巧妙地利用了对抗网络来达到这个目的。
论文在上述多任务框架的基础应用对抗网络,提出了如下图所示的对抗多任务框架,它与之前框架的区别在于多了一个判别器(Discriminator)网络模块,负责检查共享特征中是否不小心混入了特定于某个任务的特征。
图 4:对抗多任务框架
具体来说,每当一个样本经过字向量层、共享 LSTM 层之后,我们会得到一个特征向量序列,该序列的长度与输入样本的字符长度相等。为了检查这些特征向量是否「纯净」,我们对它们求平均,得到一个固定长度的特征向量,再输入判别器网络模块,要求判别器预测该特征向量来源于 8 个语料中的哪一个。这是我们给判别器设定的目标。
假如判别器能够准确预测每一个共享特征向量的来源语料,则说明这些共享特征中混入了太多私有信息,这是我们不希望发生的事情。所以我们反过来给共享 LSTM 模块设定一个目标,让它跟判别器对抗,想办法让判别器预测不准。假如共享 LSTM 模块成功让判别器分不清特征向量来自哪个语料,意味着我们已经把私有特征剥离出去了,从而保证了共享特征向量的纯净性。
引入了上述对抗训练目标之后,新的对抗多任务框架在 8 个语料上都获得了准确率的提升。
回过头来看,这样神奇的结果似乎又很符合直觉。作者借鉴了多任务学习的思想,融合多个语料的数据来提升共享字向量模块、共享 LSTM 模块的泛化性能,又让多个私有 LSTM 模块、私有 CRF 模块分别负责各个语料之间标准不一致之处,还巧妙地利用了对抗网络把私有信息从共享模块中剥离到各个私有模块中去,既能充分享受到数据量增大带来的好处,又避免了不同语料之间相互掣肘,做到了「求同存异,共创双赢」。笔者相信这篇论文提出的对抗多任务框架不仅对中文分词有好处,也能够用在很多其他问题上,具有相当的普适应用价值。
Visualizing and Understanding Neural Machine Translation
论文作者:丁延卓、刘洋、栾焕博、孙茂松(清华大学)
特约记者:吴郦军(中山大学)
如果有一个功能神奇的「黑箱子」,你想不想打开它,好好研究一番?神经机器翻译就是这么一个「黑盒」,只要给它一句中文,就能将对应的英文顺利地翻译出来,如何才能一探其中的究竟呢?清华大学的丁延卓同学、刘洋老师、栾焕博老师和孙茂松老师在今年 ACL2017 上的工作就将这其中的奥秘「画给你看」。
近年来,深度学习快速发展,神经机器翻译(Neural Machine Translation)方法已经取得了比传统的统计机器翻译(Statistical Machine Translation)更为准确的翻译结果。可是,深度学习这样的复杂而又庞大的网络模型,就像一个摸不清的「黑箱子」,网络中只有浮点数的传递,到底背后包含着怎样的语义、逻辑,一直困扰着研究人员对于神经机器翻译的深入理解和分析。因此,如果能够将网络可视化,找到网络中神经元之间的相关关系,将极大帮助人们探究神经机器翻译中出现的各类错误,同时也能帮助指导如何调试更好的模型。
而就在今年的 ACL2017 上,清华大学的丁延卓同学、刘洋老师、栾焕博老师和孙茂松老师发表了论文「Visualizing and Understanding Neural Machine Translation」,借鉴视觉领域中的研究,首次将计算机视觉中 layer-wise relevance propagation(LRP)的方法引入到神经机器翻译中,为注意力机制(attention mechanism)的编码 - 解码(encoder-decoder)神经机器翻译模型提供了可视化以及可解释性的可能。通过分析层与层之间的相关性,将这些关系「画」了出来。「据我们所知,目前还没有工作是在神经机器翻译模型的可视化上。」作者告诉我们,现有的注意力机制被限制在只能证明源语言(source language)和目标语言(target language)之间存在关系,却不能提供更多的信息来帮助了解目标语言的词语是如何一步一步生成的;而相关性分析则能够帮助理解这个过程,并且能够分析任意神经元之间的关系。
Layer-wise relevance propagation(LRP)的方法到底是什么呢?其实就是一个计算相关性,并将相关性逐层向后传播的过程。首先将网络模型看成一个拓扑图结构,在计算一个节点 a 和输入的节点之间的相关性时,将 a 点的数值作为相关性,并且计算与 a 点相连的上一层节点在生成 a 点时所占的权重,将 a 的相关性逐层向后传播,直到输入层。作者用下图的例子告诉了我们:
图 1:Layer-wise Relevance Propagation 示例
如果要计算 v1 和 u1 之间的相关性,首先计算 v1 和 z1, z2 之间的相关性,再将 v1 和 z1, z2 的相关性传递到 u1, 从而求得 v1 和 u1 之间的相关性。
通过这样的计算,我们最终能「画」出怎样的相关性呢?让我们来几个例子(颜色越深表示相关性越强):
图 2:目标语言单词 "visit" 对应的隐变量可视化图
图 3:错误分析:不相关词语 "forge" 与源句子完全不相关
图 2 是在翻译「我参拜是为了祈求」时中间的隐层 c2, s2 以及输出层 y2 和输入句子词语之间的相关性,可以看到「visit」这个词语正确的和「参拜」以及「my」的相关性更为强烈,因而正确的翻译出了词语「visit」;而图 3 则表明「forge」(锻造)这个词语的隐层 c9, s9 和输入的词语都没有正确的相关性并且跳跃,而在生成时 y9 也没有和输入有正确的相关性。
「通过对翻译中出现的不同错误的相关性的可视化的观察,我们的方法能够帮助模型进行改造和更好的调试。」作者告诉我们,在将 LRP 的方法引入时其实也遇到了一些难点,比如图像领域只是输入图像像素点,而机器翻译中则是一串词语,每个词语都对应着一个长度或百或千的向量,对于计算相关性造成了困难;同时模型复杂,包含各种不同的计算算子。而通过仔细地设计计算方法以及 GPU 的利用,也将困难一个个克服了。
「未来,我们希望将方法用于更多不同的神经机器翻译模型中,另外也希望构建基于相关性分析的更好的神经机器翻译模型。」对于未来的研究工作,他们也更为期待。
ACL 2017 Outstanding Paper 列表
PaperWeekly 论文共读小组
「每周一起读」是由 PaperWeekly 发起的协同阅读小组。我们每周精选一篇优质好文,利用在线协同工具进行精读并发起讨论,在碎片化时代坚持深度阅读。目前已成立的专题小组有:Chatbot、机器翻译、知识图谱、GAN、推荐系统、QA、增强学习、多模态、自动文摘和统计学习。
我们将针对上述两篇 ACL 2017 获奖论文在组内发起阅读讨论,并邀请论文作者与大家一同交流。
想和我们一起研读优质 paper?
「点击这里」提交内测申请,我们将在 48 小时内完成审核并和您取得联系。