Junxian He等作者Geek AI 张倩编译

联合学习离散句法结构和连续词表征的无监督方法

句法结构的无监督学习通常是使用带有离散潜在变量和多项式参数生成模型进行的。在大多数情况下,这些模型都没有利用连续的词表征。本文提出了一种新的生成模型,通过级联带有结构化生成先验的可逆神经网络,用无监督的方式一同学习离散句法结构和连续词表征。在 Penn Treebank 数据集上,本文提出的的马尔可夫结构模型在词性标注归纳任务上的性能超过了目前最先进的模型。此外,该研究中的树结构模型在既没有黄金词性标注标签也没有基于标点的约束条件的困难训练条件下,在无监督依存分析任务中达到了当前最优性能。

数据标注是监督学习方法应用于许多问题的主要瓶颈。因此,直接从无标签数据中学习的无监督方法显得越来越重要。对于与无监督句法分析相关的任务来说,离散生成模型近年来占据着主导地位,如词性标注(POS)归纳(Blunsom and Cohn, 2011; Stratos et al., 2016)和无监督依存分析(Klein and Manning, 2004; Cohen and Smith, 2009; Pate and Johnson, 2016)。尽管类似的模型在一系列无监督任务中取得了成功,但它们大多忽略了有监督自然语言处理应用中显而易见的连续词表示的作用(He et al., 2017; Peters et al., 2018)。本文着眼于利用并显式地表征句法结构的无监督模型中的连续词嵌入

利用大量无标签语料库预训练得到的词嵌入提供了一种紧凑的方式,将词相似性的先验概念注入到模型中。如果不使用这种技术,这些模型就会将词视为离散的、孤立的类别。然而,由任何特定的嵌入方案捕获到的语言的特定属性可能难以控制,因此可能无法理想地适用于我们面对的任务。例如,用小型上下文窗口预训练得到的 skip-gram 嵌入(Mikolov et al., 2013)可以很好地捕获到语言的句法特性(Bansal et al., 2014; Lin et al., 2015)。然而,如果我们的目标是分离句法类别,这样的嵌入空间就不是理想的——词性标注类别对应于嵌入空间中重叠的散布区域,如图 1(a)所示。

图 1:skip-gram 嵌入(在上下文窗口大小为 1 的 10 亿个单词上训练得到)以及通过我们使用马尔可夫结构先验的方法学到的潜在嵌入的可视化结果(t-SNE)。每个节点代表一个单词,并且根据 Penn Treebank 中最可能的黄金词性标注标签着色。

在我们提出的方法中,我们建议学习一个新的潜在嵌入空间作为预训练的嵌入的投影(如图 1(b)所示),同时一起学习词性标注类别或句法依存关系等潜在的句法结构。为此,我们引入了一个新的生成模型(如图 2 所示)。该模型首先利用离散结构先验(我们也称之为「句法模型」)生成一个潜在的句法表征(如依存分析)。接着,我们以此表征为条件,生成一个对应于每个单词的潜在的嵌入随机变量序列。最终通过将这些潜在向量用一个参数化的非线性函数进行投影得到我们看到的(预训练的)词嵌入。潜在的嵌入可以以完全不受监督的方式与结构化的句法模型一同学习。

图 2:本文使用的生成模型示意图。本文提出的句法模型由离散随机变量 z_i 组成。每个 e_i 都是一个在 z_i 情况下从高斯分布中抽样到的潜在的连续嵌入,而 x_i 是我们看到的由 e_i 确切求导得来的嵌入结果。左边的部分描述了神经投影如何将简单的高斯分布映射到输出空间中更加复杂的分布上。右边的部分描述了我们的方法中句法模型的两个实例:一个使用了马尔可夫结构的先验,另一个使用了 DMV 结构的先验。对于 DMV 来说,z_tree 是潜在的依存树结构。

通过选择一个可逆神经网络作为我们的非线性投影器,然后根据投影的倒置对我们的模型进行参数化处理,我们就可以推导出易于处理的准确推理,而且只要推理在底层的句法模型中是易于处理的,我们就可以推导出边缘似然的计算过程。§3.1 阐明了该推导对应于我们的方法的另一种视角,由此我们可以一同学习观察到的词嵌入结果到一个新的嵌入空间的映射。新的嵌入空间更适合句法模型,包含了一个额外的 Jacobian 正则项以防止信息丢失。

最近的研究已经试着去利用通过其它方法构建的无监督生成模型中的词嵌入(Lin et al., 2015; Tran et al., 2016; Jiang et al., 2016; Han et al., 2017)。Lin 等人于 2015 年在观察到的词嵌入上使用高斯分布构建了一个隐马尔可夫模型(HMM),但他们没有尝试学习新的嵌入。Tran 等人、Jiang 等人于 2016 年,Han 等人于 2017 年拓展了 HMM 模型或通过在参数化过程中使用单词(或标签)嵌入的多项式拓展了 DMV 模型。然而,它们并不以潜在变量表征嵌入。

在实验中,我们使用了马尔科夫结构的句法模型和树结构句法模型(具体指 DMV 模型)来实例化我们的方法。我们对两个任务进行了评价:词性标注(POS)归纳和不带黄金 POS 标签的无监督依存分析。在 Penn Treebank 数据集(Marcus et al., 1993)上得出的实验结果表明,我们的方法在基础的 HMM 模型和 DMV 的性能上有极大的提升,获得了目前在词性标注归纳任务上最好的实验结果,还在既没有黄金 POS 标签也没有基于标点的约束条件的困难训练场景下获得了目前最好的实验结果。

论文:Unsupervised Learning of Syntactic Structure with Invertible Neural Projections 

论文链接:https://arxiv.org/pdf/1808.09111v1.pdf

摘要:句法结构的无监督学习通常是使用带有离散潜在变量和多项式参数生成模型进行的。在大多数情况下,这些模型都没有利用连续的词表征。本文提出了一种新的生成模型,通过将带结构化生成先验的可逆神经网络级联起来,用无监督的方式一同学习离散句法结构和连续词表征。我们的研究表明,只要先验知识能很好地起作用,可逆性条件就能帮助我们在模型中进行高效的精确推理和边缘似然计算。在实验中,我们用马尔可夫结构先验和树结构先验实例化了我们的方法,对两项任务进行了评价:词性标注(POS)归纳和不带有黄金 POS 标签的无监督依存分析。在 Penn Treebank 数据集上,我们的马尔可夫结构模型在词性标注归纳任务上的性能超过了目前最先进的模型。同样地,我们发现我们的树结构模型在既没有黄金词性标注标签也没有基于标点的约束条件的困难训练条件下,在无监督依存分析任务中达到了当前最优性能。

图 3:逆投影 的架构示意图,它组成了多个保积耦合层,我们通过这些层对我们的模型进行参数化处理。在图的右侧,我们用图表描述了逆投影是如何将观察到的词嵌入 x_i 转换到新的嵌入空间中的点 e_i 上去的。

表 1:在完整的 WSJ 数据集上的无监督词性标注结果,与其它的对比基线和目前最先进的系统对比。当标准差可得时,我们在括号中给出了标准差。

图 4:为词性标注实验建立的归一化后的混淆矩阵,行标签代表黄金标签。

表 2:WSJ 数据集第 23 章的定向依存准确率,分别在长度为 6-10 的句子以及所有长度的句子上进行评估。带(*)的记录表示系统从额外的基于标点的约束条件中获益。当标准差可得时,我们在括号中给出了标准差。

理论无监督学习生成模型NLP
3
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

混淆矩阵技术
Confusion matrix

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。 这个名字源于这样一个事实,即很容易看出系统是否混淆了两个类。

语料库技术
Corpora

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

高斯分布技术
Gaussian distribution

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

隐马尔可夫模型技术
Hidden Markov models (HMM)

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

生成模型技术
Generative Model

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

先验知识技术
prior knowledge

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

词性标注技术
part of speech (tagging)

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

t分布随机邻嵌入技术
t-SNE

t分布随机邻嵌入(t-SNE)是由Geoffrey Hinton和Laurens van der Maaten 开发的一种降维的机器学习算法。 这是一种非线性降维技术,特别适合将高维数据嵌入到二维或三维空间,然后可以在散点图中将其可视化。 具体来说,它通过二维或三维点对每个高维对象进行建模,使得类似的对象由附近的点建模,不相似的对象由远点建模。

词嵌入技术
Word embedding

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数