张玺 王淑婷编译

这种有序神经元,像你熟知的循环神经网络吗?

本文基于以前的 RNN 模型研究,提出了一种有序神经元,该神经元能够强制执行隐藏状态神经元之间更新频率的顺序,并且将潜在树结构整合到循环模型中。此外,本文提出的一种新 RNN 单元在语言建模、无监督成分句法分析、有针对性的语法评估及逻辑推理四个任务上都表现优异。

引言

虽然自然语言通常以序列形式呈现,但语言的基本结构并不是严格序列化的。语言学家们一致认为,该结构由一套规则或语法控制(Sandra & Taft,2014),且规定了单词组成语句的逻辑。不管其表现形式如何,这种结构通常是树状的。虽然语言学家们已发现这一规律,但其潜在结构的真正起源却仍不得而知。某些理论认为,这可能与人类认知的内在机制相关(Chomsky & Lightfoot,2002)。由于人工神经网络的灵感来源于生物神经系统的信息处理及通讯模式,上述可能性让更多人对使用人工神经网络研究语言的潜在结构产生了兴趣。

从实用角度看,将树结构集成到语言模型中也很重要,原因如下:

  1. 能获得抽象化级别不断提升的分层表征,抽象化也是深度神经网络的关键特征(Bengio 等,2009; LeCun 等,2015; Schmidhuber,2015);

  2. 能捕获复杂语言现象,如长期依赖问题(Tai 等,2015)与组分效应(compositional effects)(Socher 等,2013);

  3. 能为梯度反向传播提供捷径(Chung 等,2016)。

近些年,很多人开始关注开发能够利用语法知识或至少一些树结构(Williams 等,2018;Shi 等,2018)来形成更好语义表征的深度神经网络(Shen 等,2017; Jacob 等,2018;Bowman 等,2016;Choi 等,2018;Yogatama 等,2016)。

获得树结构的一种简单方法是通过监督语法分析器。这些分析器生成的树结构被用来指导单词语义到句子语义的组合(Socher 等,2013;Bowman 等,2015),甚至在给定先前单词的情况下帮助预测下一个单词(Wu 等,2017)。然而,监督分析器也有一些局限性:1)很少有语言具有用于监督分析器训练的全面注释数据;2)在可用的语言数据中,语法规则往往被打破「如推特上的表达」;3)在实际运用过程中,语言始终在变化,因此语法规则可能会演变。

另一方面,以无监督方式从可用数据中学习树结构仍是一个未解决的问题。训练过程中的繁琐结构(如左分支树结构、右分支树结构(Williams 等,2018))或强化学习训练困境(Yogatama 等,2016),使许多研究无功而返。而且,一些方法的实现和训练相对复杂,如 Shen 等人提出的 PRPN(2017)。

循环神经网络(RNN)已被证明在语言建模任务中非常高效(Merity 等,2017;Melis 等,2017)。RNN 隐式地在数据上强加了链式结构。该链式结构似乎与语言的潜在非序列化结构不一致,并且给运用深度学习方法处理自然语言数据带来了一些困难,如捕获长期依赖(Bengio 等,2009)、获得良好泛化能力(Bowman 等,2015)及处理否定 (Socher 等,2013)等。同时,有证据表明,拥有充足能力的循环神经网络有潜力隐式地编码这种树结构(Kuncoro 等,2018)。但问题是,在模型架构上强加树结构归纳先验会导致更好的语言模型吗?

本文介绍了一种面向循环神经网络的新型归纳偏置:有序神经元。这种归纳偏置增强了神经元之间的依赖性,这种依赖性反映了每个神经元内所存储信息的生命周期。换言之,一些高级神经元储存长期信息,而低级神经元储存短期信息。为了避免高级和低级神经元之间的固定划分,本文进一步提出了一种新的激活函数 cumax()来主动分配神经元去存储长/短期信息。基于 cumax()和长短期记忆网络(LSTM)架构,本文设计了一种新模型──ON-LSTM,它使 RNN 模型能够能够在不破坏其序列形式的情况下执行树状合成。该模型在语言建模、无监督成分句法分析(unsupervised constituency parsing)、有针对性的语法评估(Marvin & Linzen, 2018)及逻辑推理(Bowman 等,2015)四个任务上表现优异。其在无监督成分句法分析任务上的结果表明,本文提出的归纳偏置与人类专家提出语法原则是一致的。我们的实验还表明,就长期依赖和较长序列泛化而言,ON-LSTM 比标准 LSTM 模型性能更佳,

论文:ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS 

论文链接:https://openreview.net/forum?id=B1l6qiR5F7

摘要:循环神经网络模型已被广泛用于处理由潜在树结构控制的序列数据。以前的研究表明,RNN 模型(尤其是基于 LSTM 的模型)能够学习利用潜在树结构。然而,它的性能却始终落后于基于树的模型。我们提出了一种新的归纳偏置──有序神经元(Ordered Neuron),它强制执行了隐藏状态神经元之间更新频率的顺序。本文表明,有序神经元能够将潜在树结构明确整合到循环模型中。为此,我们提出了一种新的 RNN 单元:ON-LSTM,其在语言建模、无监督成分句法分析、有针对性的语法评估及逻辑推理四个任务上表现优异。

图 1:成分句法分析树与 ON-LSTM 的关系。给定 token 序列 (x1, x2, x3),其成分句法分析树如图(a)所示。图(b)展示了树结构的块状图,其中 S 与 VP 节点都跨越了不止一个时间步。高级节点的表征在跨越多个时间步时应保持相对一致。图(c)展示了每组神经元在每个时间步的更新神经元比例。在每个时间步,给定输入词,较深的灰色块代表完全更新,较浅的灰色块代表部分更新。三组神经元的更新频率不尽相同。较高级别的组更新频率较低,而较低级别的组更新频率较高。

ON-LSTM

本文提出了一种新的 RNN 单元──ON-LSTM,作为有序神经元的实现。该新模型与标准 LSTM 模型的架构相似。

ON-LSTM 与标准 LSTM 模型的唯一区别在于,我们排除了单元状态 ct 的更新功能,并以新的更新规则替代,后续章节将会详细解释。与之前一样,运用遗忘门 ft 与输入门 it 控制单元状态 ct 上的清除和写入操作。一般来说,由于标准 LSTM 的门不会在其各个单元中强加拓扑结构,所以各个单元的行为不会反映出排序。

实验

表 1:宾州树库语言建模任务中验证集和测试集上的单个模型困惑。标注「tied」的模型在嵌入和 softmax 权重上使用权重绑定。标注「*」的模型重点关注改进 RNN 语言模型的 softmax 部分。

表 2:在完整的 WSJ10 和 WSJ 测试集上评估无标记「parsing F1」的结果。本文的语言模型分三层,每层都提供了ˆdt 序列。本文给出了所有层的分析性能。RL-SPINN 和 ST-Gumbel 的结果在完整的 WSJ(Williams 等,2017)上评估。PRPN 模型在 WSJ 测试集(Htut 等,2018)上评估。

表 3:ON-LSTM 和 LSTM 在每个测试案例上的整体准确率。「Long-term dependency」表示目标词对之间存在一个不相关的短语或从句,而「short-term dependency」意味着没有这猴子那个分散注意力的情况。

理论RNN神经元
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

语法分析器技术

在计算机科学和语言学中,语法分析是根据某种给定的形式文法对由单词序列构成的输入文本进行分析并确定其语法结构的一种过程。 语法分析器通常是作为编译器或解释器的组件出现的,它的作用是进行语法检查、并构建由输入的单词组成的数据结构。

遗忘门技术

LSTM或GRU中特有的机制

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~