作者:深度好奇研究组(DC-SQUAD)

会在精读和泛读中自由切换的神经网络

卷积神经网络采用类似初级视觉皮层的操作方法高效处理图像数据,而自然语言处理尚未有一种结合认知机制的奠基性模型。在本文中,研究者提出了变焦网络(Zooming Network)的概念,它很好地结合了泛读与精读过程,可以更好地对长时依赖特征进行建模。

  • 论文题目:Zooming Network 

  • 论文地址:https://arxiv.org/abs/1810.02114

设计动机

神经网络模型之所以能够在人工智能的各个领域大放异彩,除了凭借强大的拟合能力和各类梯度下降方法之外,还要依靠网络结构基于数据信息分布特征的针对性设计。比如,多层全连接网络虽然在理论上可以拟合任何函数,实际应用中的效果却往往差强人意;而另一方面,多层卷积神经网络由于采用了类似大脑初级视觉皮层信息处理方法的卷积操作与参数共享方法,对图像信息进行高效的特征提取(充分利用了图像中的平移不变性、局部信息连续性),可以使用少得多的参数图像处理任务上取得非常好的效果。

我们认为自然语言处理领域尚无一种类似卷积网络的在图像处理领域具有奠基作用的模型。究其原因,是我们尚未充分利用自然语言数据和任务天然具有的特征进行模型结构的改进。自然语言天然地具有如下特征:1)自然语言(文本)是由一些基本语言单元(如单词、字、词)构成的序列;2)语言单元具有层级特征,低级语言单元可以构成高级语言单元(如多个字可以组成一句或一段文本);3)语言单元的划分不是随机的,而是包含着语者或作者的信息表达策略;4)不同于图像数据,基本语言单元不具有像素一样的局部连续性,而是高度信息符号化的。

为了更好地利用上述文本特征,我们提出了变焦网络(Zooming Network)的概念。整体上看,变焦网络由三个主要部分组成:层次化编码模块、变焦控制器模块、符号推理模块,分别完成针对语言单元特点的编码过程、解码过程,以及针对自然语言符号化的推理辅助解码。我们将该网络设计应用到长文本序列标注任务上,取得了非常好的效果(f1 score 超过 bi-LSTM-crf 模型 10% 以上)。

层次化编码(HIERARCHICAL ENCODER)

人在阅读文本时既按照时间顺序累积信息,又伴随着不同级别的信息抽象。这对应着人类语言文字共有的两个重要特征:时序化和分级化。我们对与编码模块的设计就是利用了这两个特征:使用双向长短时记忆层(bi-LSTM)对单一语言单元层级进行顺序地读取、编码;使用最大池化操作(max-pooling)模仿人脑由低级语言单元抽象高级语言单元信息的过程。通过层次化编码,我们赋予每一级每一个语言单元一个向量表示(hierarchical distributed memory),并保留其句段划分的分界信息。

变焦控制解码(ZOOMING CONTROLLER)

变焦控制器本质上是一个序列决策模型。不同于经典的循环神经网络(RNN)模型:1)变焦控制器每次不是接收单个基本语言单元的信息,而是接收当前位置上的字、句、段三级信息,这样可以使模型同时掌握细节特征(detailed local feature)和整体特征(global feature),以更好地进行状态更新。2)在每个解码标签序列的时刻,变焦控制器可以选择当前解码长度,可以选择输出任意层级语言单元对应的标签,而不仅限于基本语言单元(字/字符)。3)在预测标签之后,读取位置会自动跳转到与解码层级一致的下一语言单元的开头,而不是直接跳转到下一个基本语言单元。这种解码过程使得变焦控制器对文本表征的阅读方式更加灵活,在信息分布稀疏的部分可以快速略读(Zoom out),在信息分布集中的部分可以逐字精读(Zoom in)。

符号推理(SYMBOLIC REASONING)

在解码过程中,我们可以通过自然语言文本的一些「写作习惯」特征和已经预测出的标签序列,对下文标签规则推理出一些建议标签。例如,在大量的垂直领域文本中,常常出现一些有序列举过程:「1. …… 2. …… 3. ……」。这些有序符号往往成组出现,而且对应内容是等位并列关系,一般具有相同标签(或者相同结构标签)。在实际使用过程中,我们会综合上个序号内容的处理方式,给出下个序号内容处理的最佳路径并以稀疏向量的形式输入到变焦控制器内,使其可以更加高效地处理数据。

实验情况

我们将该模型应用到两组数据的序列标注上:

1)集中式的重点信息抽取:在刑事案件的裁判文书中,对犯罪事件的具体描述提供了整个案件的判决依据,有很重要的分析价值。这些描述往往集中出现,但是由于整个裁判文书的长度多变,案件复杂程度不一,对这些描述的高效抽取既需要快速地略过无关信息,又需要在信息出现的段落进行精细的分析。下图示例中红色及蓝色的文字表示被zooming net抽取出来的部分,不同的颜色则代表不同的犯罪事件标签。

2)分散式的重点信息抽取:在知识产权纠纷案件的裁判文书中,案件的核心是原被告双方争议的焦点。这些信息随着对纠纷的描述不定位置地出现,出现形式也复杂多变,进一步要求模型对处理路径的灵活选择。下图示例中红色及蓝色的文字表示被zooming net抽取出来的部分,不同的颜色则代表不同的争议焦点标签。

我们使用序列标注经典最优模型 bi-LSTM-crf 作为 baseline model 来比较模型的处理性能,实验结果如下(模型参数数量为同一量级):

其中,WA指word-level的整体准确率,wlar指模型使用的逐字读取行为占全部处理行为的数量比例。可以看出,变焦网络的性能远超基线模型,而且具有很高的处理效率(大量地使用句、段级别的标签预测行为)。这个过程的具体示例如下:

其中,蓝色部分表示模型使用了句级、段级的预测,红色部分表示模型使用了字级的预测。可以看出,在信息意义不大的部分,模型选择了略读,而在关键信息出现的地方,模型采用了精读的方式处理。另外一个有意思的现象是,模型对于「经审理查明」等带有指示功能的语句一样采用了精读方式处理。

总结

借助句段结构信息,变焦神经网络很好地结合了泛读与精读过程,可以更好地对长时依赖特征进行建模,引入大跨度动作提高效率,尤其在篇幅很长的文本处理中表现得更为明显,在关键信息的抽取任务上,f1 值较经典序列标注模型(biLSTM+CRF)有 10% 以上的提升。在此基础上引入神经符号化推理模块后,其处理效率又有了一个显著提升。变焦神经网络非常适合应用于各类长文本处理任务当中,其使用的编解码方式也可结合其他技术推广到各类自然语言处理任务中,产生新的火花。

理论序列标注神经网络架构自然语言处理
2
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

推荐文章
暂无评论
暂无评论~