王子嘉、张倩编译

ICML 最佳论文提名论文:理解词嵌入类比行为新方式

前不久,ICML大会在美国举办。大会放出了最佳论文等奖项,还有7篇最佳论文荣誉提名论文,本文便是其中的一篇。在这篇论文中,来自爱丁堡大学的研究者提出了一种解释词嵌入类比(如「女人之于王后就像男人之于国王」)的新方式,推导出了一种意译 (paraphrasing) 的概率定义,即「w_x之于w_y」的数学描述。他们通过这些概念证明了W2V型嵌入之间存在线性关系。

word2vec(W2V)这类神经网络生成的词嵌入以其近似线性的特性而闻名,比如「女人之于王后就像男人之于国王」这种类比嵌入,描述了一种近似平行四边形的结构。 

有趣的是,这个特性并不是从训练中得来的。对此现象也有几种解释,但每一种解释都引入了不太合理的假设。

研究者推导出一种意译(paraphrasing)的概率定义,即「w_x 之于 w_y」的数学描述,并将其称为单词转换(word transformation)。他们通过这些概念证明了 W2V 型嵌入之间存在线性关系,这些关系是类比的基础,并确定了显式误差项。

研究者首先展示了嵌入在因子分解点互信息(PMI)的情况下,它的意译决定了嵌入的线性组合何时等于另一个单词的线性组合。例如,如果 king 和 {man, royal} 是语义等价的,就说 king 可以意译为 man 和 royal。

我们可以用邻近单词的概率分布来衡量这种等价性,这印证了一句弗斯的一句格言——「你应该通过语境来理解一个单词」。然后,研究者提出意译可以看作是基于加减法的单词转换(例如 man 加 royal 变成 king)。

最后,研究者通过将类比「w_a 之于 w_a ^∗就像 w_b 之于 w_b ^∗」解释为「w_a 之于 w_a ^∗和 w_b 之于 w_b ^∗」共享参数的单词转换,证明了本文中的观点。图 4 展示了类比中词嵌入的线性关系。

图 1:类比「man is to king as woman is to ..?」的词嵌入的相对位置。其中最接近 w_K - w_M + w_W 线性组合的词嵌入是 queen。研究者解释了发生这种情况的原因及它们之间的区别。

本文的主要贡献是:

  • 得出意译的概率定义,并证明意译控制一个单词嵌入(PMIderived)与任意单词之和的关系;

  • 说明如何泛化意译,并利用「w_x 之于 w_x^∗」的数学表达式将其解释为从一个单词到另一个单词的转换,;

  • 首次严谨地证明了类比词嵌入之间的线性关系,包括显式的、可解释的误差项;

  • 展示了这些关系如何在 PMI 向量之间实现,这些关系在因式分解了 PMI 矩阵的词嵌入以及类似的分解(如 W2V 和 Glove 等)中也都适用。

背景知识

Levy & Goldberg(2014b)发现,如果满足以下条件,则 W2V 的目标函数是最优的:


其中, 被称为点态互信息。在矩阵形式中,这等同于:

其中, Glove(Pennington et al., 2014)拥有与 W2V 相同的架构。它的嵌入具有可比性,并具有线性类比结构。对于偏差 b_i、b_j 和归一化常数 Z,Glove 的损失函数在以下等式成立时是最优的:

由于偏差的存在,(3) 泛化 (1),使得 Glove 拥有比 W2V 更大的灵活性以及可能更加广泛的解。然而,本文将要展示的是,是 PMI 指标的因式分解导致了嵌入中的线性类比结构,正如 W2V (1) 中实现的那样。研究者推测,支持 Glove 嵌入类比结构的理论基础也是相同的,但可能由于其增加的灵活性而更加薄弱。

初步研究

研究者考虑了与词嵌入和共现统计量之间关系相关的方面 (1,2),这与类比嵌入之间的线性结构相关:

偏移的影响 

作为一个超参数,它不反映任何词属性,对 (1) 中出现的 k 的嵌入的影响也是随机的。将 k 的典型值与常见的 PMI 值进行比较(图 2)后可以发现,偏移(shift)(- log k)可能也很重要。

此外,可以观察到,为了避免偏移的直接影响而对 W2V 算法的调整提高了嵌入的性能 (Le, 2017)。因此,这种偏移显然是 W2V 算法的有害产物,除非另有说明,否则尽量还是使用对未平移 PMI 矩阵进行分解的嵌入:

图 2: 从文本中随机抽取的单词对的 PMI 直方图(w_i, c_j,蓝色)与相同单词重叠(红色,缩放)的 PMI 直方图 (w_i, c_i)。偏移使用 k 的典型值。

重构误差

在实践中,(2) 和 (4) 仅近似成立,因为相对于分解矩阵 M 是秩约束的(秩 r << d < n),如 (4) 中的 M=PMI。因此,从 W 和 C 中重构 M 的元素容易产生重构误差。然而,我们始终依赖于 R^n 中的线性关系,只要求它们在「向下」投射到 R^d(嵌入空间)时尽可能不失真。为确保这一点,研究者假设:

零同现数(Zero Co-occurrence Counts)

罕见词汇的同时出现往往会被忽视,因此它们的经验概率估计值为零,PMI 估计值也未被定义。然而,对于一个固定的字典 E,随着语料库或语境窗口的增大,这样的零计数会减少(如果较远的单词向下加权,语境窗口大小可以任意变大,如 Pennington et al. (2014))。

这里,我们只考虑小词集 W,并假设语料库和语境窗口足够大,概率真实值为非零,且其 PMI 值定义良好,即:

其中「|W| < l」表示 |W| 充分小于 l。

W 与 C 之间的关系

一些工作(如 Hashimoto et al. (2016),Arora et al .(2016))假设嵌入矩阵 W 和 C 相等,即 w_i = c_i ∀_i。这种假设使得参数减半,且简化了方程,不再需要过多考虑 w_i 和 c_i。

然而,这意味,也即要求 PMI 为正半定,这在典型语料库中是不现实的。因此,w_i、c_i 是不相等的,修改 W2V 来强制它们相等将会带来不必要的约束,并且很可能使低秩近似恶化。

结论

本文中,研究者通过参考单词对其周围的单词所引起的分布,在单词和单词集之间产生等价,推导出意译的概率定义。

他们证明,在统计依赖关系下,是意译关系导致了分解 PMI 的词嵌入(包括 PMI 矩阵的列)与近似分解 PMI 的词嵌入(如 W2V 和 Glove)之间的线性关系。

意译可以解释为单词转换,因此我们可以用数学方法定义类比,从而将语义属性转换为词嵌入的属性。这首次精确地证明了类比词嵌入之间的线性关系的存在。

在未来的工作中,研究者的目标是将他们对词嵌入之间关系的理解扩展到其他依赖于底层矩阵分解的离散对象表示应用中,例如图嵌入和推荐系统

此外,众所周知,词嵌入可以捕捉语料库中存在的偏见(Bolukbasi et al. (2016)),未来的工作可能会着眼于发展对嵌入组合的理解,以提出纠正或消除带有偏见的嵌入的方法。

论文链接:https://arxiv.org/abs/1901.09813v2

理论语料库词嵌入
1
相关数据
重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

因式分解技术

在数学中,把一个数学因子(比如数字,多项式,或矩阵)分解其他数学因子的乘积。比如:整数15可以分解成两个质数3和5的乘积,一个多项式x^2 -4 可被因式分解为(x+2)(x-2)。

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

推荐文章
暂无评论
暂无评论~