长距离依赖

也作“长距离调序”问题,在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉

来源:机器之心
简介

让我们从一些简单的问题入手:

WH-问题(wh-questions):

你发现了什么?/你在和聊天?

•关系从句(relative clauses):

我发现的物品/我与之交谈的那个人

•专题(topicalization):

手册,我找不到

•难易程度形容词(easy-adjectives):

我的房子很容易找到/帕特很难说话

可以看到上面的文字都需要其他元素来补充以使意思完整。而这个需要词汇填充的位置和它们的“填充物”(能够推导出该词汇的语料)在空间上相距甚远:

克里斯很容易认为,除了天才之外,任何人都不可能与____沟通。

这即是我们所称谓的“长距离依赖”。填充词往往具有与其所填充位置相关的语法属性。

[描述来源:Bender, E. M.; Sag, I. A.; Wasow, T. (2003).Syntactic Theory: a formal introduction(Second Edition).CSLI Publications.]

许多在文本处理上表现很好的模型都无法处理长距离依赖问题。以循环神经网络(RNN)为例,当我们处理短期依赖性时,循环神经网络工作得很好。当应用于像这样的问题:

The color of the sky is____

RNN被证明相当有效。这是因为该问题与陈述的语境无关。RNN不需要记住之前的信息,或者其含义,它只需知道大多数情况下天空是蓝的。因此预测将是:

The color of the sky is blue.

然而,一般的RNN无法理解输入蕴含的语境。当做出当前预测时,一些过去的信息无法被回忆,但是为了做出适当的预测,RNN需要记住这个语境。相关信息可能会被大量不相关数据从需要的地方分离出来。这正是RNN失败的地方。

这背后的原因是梯度消失的问题。我们知道,对于传统的前馈神经网络,在特定层上应用的权重更新是学习率、来自前一层的误差项以及该层输入的倍数。因此,特定层的误差项可能是先前所有层的误差的结果。当处理像sigmoid那样的激活函数时,随着我们移向起始层,其小的导数值(出现在误差函数中)会倍增。结果,随着移向起始层,梯度几乎消失,这些层也变的难以训练。

一个类似情况出现在了RNN中。RNN只有短期记忆,也就是说,如果我们在一小段时间之后需要这些信息是可行的,但是一旦大量的单词被输入,信息就会在某处丢失。

[描述来源:在调用API之前,你需要理解的LSTM工作原理|机器之心]

发展历史

描述

有关长距离依赖的问题应当是最先由Hockett在1952年讨论的,1957年,Chomsky的博士论文通过个人心理学的视角,对长距离依赖关系的输入及其与语言理论的关系进行了讨论。

目前针对这个问题一般的解决办法是使用长短期记忆网络(Long Short Term Memory networks,LSTM)。理论上来讲,RNN绝对有能力处理这种“长期依赖性”,人类可以通过仔细挑选参数来解决这种问题。然而,正如我们在前文所述,在实践中,RNN似乎无法学习它们。1994,Yoshua Bengio等学者深入探讨了这个问题。Sepp Hochreiter和Jürgen Schmidhuber于1997年回顾了他们的分析,提出了LSTM,能够很好的学习长距离依赖关系,并在之后被很多学者改善和推广。2015年Kelvin Xu等学者将这种与注意力有关的研究更进一步,提出了一种基于注意力(attention)的模型,并在三个基准数据集(Flickr9k,Flickr30k和MS COCO)上验证注意力的使用情况。

主要事件

年份

事件

相关论文/Reference

1952

Hockett讨论了长距离依赖的问题

Hockett, C. F. (1952). A formal statement of morphemic analysis.Studies in Linguistics.10:27–39.

1955

Chomsky的博士论文通过个人心理学的视角,对长距离依赖关系的输入及其与语言理论的关系进行了讨论

Chomsky, N. (1955). The logical structure of linguistic theory. PhD diss., Univ. of Pennsylvania

1994

Yoshua Bengio等学者深入探讨了为什么RNN无法处理长距离依赖问题

Bengio, Y.; Simard, P. and Frasconi, P. (1994). Learning long-term dependencies with gradient descent is difficult.IEEE Transactions on Neural Networks.5(2): 157-166.

1997

Sepp Hochreiter和Jürgen Schmidhuber提出了LSTM

HochreiterS. Schmidhuber, J.(1997).Long Short-Term Memory. Neural Computation.9(8): 1735-1780.

2015

Kelvin Xu等学者提出了一种基于注意力(attention)的模型

Xu, K. et al. (2015). Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. arXiv:1502.03044v2.

发展分析

瓶颈

LSTM可以很好的解决长距离依赖的问题。

未来发展方向

目前的研究主要转到注意力模型(attention model)上,存储更多的记忆,实现从大量的输入信息(或历史信息)中选择出对当前决策有帮助的信息的功能, 如引入基于内容寻址的外部记忆来提高网络容量。

Contributor: Yuanyuan Li

相关人物
Charles Francis Hockett
Charles Francis Hockett
于尔根·施密德胡伯
于尔根·施密德胡伯
简介
相关人物