Sidak Pal Singh等作者白悦 路编译

Wasserstein is all you need:构建无监督表示的统一框架

瑞士洛桑联邦理工学院的研究者提出,通过将每个对象与分布估计和点估计(向量嵌入)相关联来构建单个对象或实体(及其组合)的无监督表示的统一框架。该方法可用于具有共现结构的任何无监督或监督问题(文本或其他模态)。该框架的关键工具是 Wasserstein 距离和 Wasserstein 重心。

近期自然语言处理机器学习突然备受关注和成功的主要驱动因素之一是开发了更好的数据模态表示方法,比如,语言的连续向量表示 (Mikolov et al., 2013; Pennington et al., 2014)、基于卷积神经网络(CNN)的文本表示 (Kim, 2014; Kalchbrenner et al., 2014; Severyn and Moschitti, 2015; Deriu et al., 2017),或通过其它神经架构(如 RNN、LSTM)的文本表示,它们都共享一个核心思路——在保留输入语义的同时,将输入实体映射到位于低维潜在空间的密集向量嵌入。

现有方法是将每个感兴趣的实体(如一个单词)表示为空间中的单个点(如其嵌入向量),而该论文提出了一种完全不同的方法。研究者基于上下文的直方图来表示每个实体(与之共现),其中上下文是合适度量空间中的点。这允许研究者将与实体相关的直方图之间的距离转换为最佳传输问题的实例 (Monge, 1781; Kantorovich, 1942; Villani, 2008)。例如,在单词作为实体的情况下,得到的框架可以直观地寻求从给定单词的上下文移动到另一个单词的上下文的成本最小化。这里的上下文可以是与我们要表示的对象共现的单词、短语、句子或一般实体,这些对象还可以是从序列数据中提取的任何类型的事件,包括电影或网络广告之类的产品 (Grbovic et al., 2015)、图中的节点 (Grover and Leskovec, 2016),或其他实体 (Wu et al., 2017)。任何共现结构都允许构建直方图信息,这是本研究提出方法的关键构建块。

本研究提出方法的强烈动机来自于自然语言领域,其中实体(单词、短语或句子)通常具有多种语义,实体被呈现为语义。因此,考虑能够有效捕获这种固有的不确定性和多义性的表示是很重要的,研究者将论证嵌入的直方图(或概率分布)能够比单独的逐点嵌入捕获更多的信息。研究者将直方图称为感兴趣对象的分布估计,将单个上下文的各个嵌入称为点估计。

接下来,为了清晰起见,研究者将通过文本表示的具体用例讨论该框架,当上下文只是单词时,通过使用常见的正点互信息(PPMI)矩阵来计算每个单词的直方图信息。

借助最佳传输的强大力量,本研究展示了该框架如何有效用于 NLP 中的各种重要任务,包括单词和句子表示以及上下位关系(蕴涵)检测,该框架还可以在上下文的现有预训练嵌入的基础上轻松使用。

该框架与单词和上下文层次的最佳传输之间的联系为 NLP 应用中更好地利用其庞大的工具包(如 Wasserstein 距离、重心等)打下了基础,这在过去主要限于文档距离 (Kusner et al., 2015; Huang et al., 2016)。

本研究证明了构建所需的直方图几乎不需要额外的成本,因为共现计数是通过语料库的单次传输获得的。由于 Cuturi(2013)引入的熵正则化,我们可以在 GPU 上并行化、批量化地高效计算最佳传输距离。最后,获得的传输图(图 1)也提供了该框架的可解释性。

图 1:大象和哺乳动物直方图之间最佳传输的图示。这里,研究者从两个直方图的前 20 个上下文的列表(就 PPMI 而言)中随机选择四个上下文。然后使用正则化的 Wasserstein 距离(如公式(4)所示),绘制所获得的传输矩阵(或通常称为传输图)T,如上所述。

论文:Wasserstein is all you need

论文链接:https://arxiv.org/pdf/1808.09663v1.pdf

摘要:我们提出了通过将每个对象与分布估计和点估计(向量嵌入)相关联,来构建单个对象或实体(及其组合)的无监督表示的统一框架。这可以通过使用最佳传输来实现,这使我们能够在利用背景空间(ground space)的基础几何结构的同时建立这些相关估计。我们的方法为构建丰富而强大的特征表示提供了新的视角,这些表示可以同时(通过分布估计)捕获不确定性和(使用最佳传输图)捕获可解释性。作为一个指导性的例子,我们为文本制定了无监督表示,特别是对于句子表示和蕴涵检测。实验结果显示我们提出的框架获得了很大的优势。该方法可用于具有共现结构的任何无监督或监督问题(文本或其他模态),例如任何序列数据。该框架的关键工具是 Wasserstein 距离和 Wasserstein 重心(因此才有了现在的论文标题!)。

图 2:三个单词的图示,每个单词都有其分布估计(左)、相关上下文的点估计(中),以及联合表示(右)。

表 2:蕴涵向量(entailment vector)和最佳运输/基于 Wasserstein 的蕴涵测量(WE)之间的比较。得分为 AP @ all(%)。超参数 α 指的是平滑指数,s 指 PPMI 计算中的位移。附录 A 中的表 4 列出了更多数据集。

表 3:蕴涵向量,最佳运输/基于 Wasserstein 的蕴涵测量(WE)和其他当前最优方法之间的比较。GE + C 和 GE + KL 分别是具有余弦相似度和负 KL 散度的高斯嵌入。当我们使用相同的评估设置时,GE + C、GE + KL 和 DIVE + C·ΔS 的得分取自 (Chang et al., 2017),分数是 AP @ all(%)。

结论

总而言之,我们得出将分布估计和点估计相关联作为每个实体的表示。我们展示了该方法允许在共现结构问题中使用与这些实体相关联的上下文集合的最优传输。此外,该框架能够与现有的指针估计和嵌入有效地结合,并且在多个 NLP 任务上展示了它的性能。最后,我们的方法为构建丰富的特征表示提供了独特的视角,这些表示能够同时捕获不确定性和可解释性。

理论NLP无监督学习
3
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~