2019/07/24 16:35

徐家兴作者

ACL 2019 | Few-shot Learning学习词表外的词表示

这篇论文将学习词表外词表示看做few-shot回归问题，提出了一种新的基于层次关注的架构作为神经回归函数，利用该神经回归函数，从K个观察值对单词的上下文信息进行编码和聚合。此外，还可以利用模型不可知元学习（MAML）来快速有效地使学习模型适应新的语料库。

论文原文：https://arxiv.org/pdf/1907.00505.pdf

论文背景 Background

现有的词嵌入方法通常假设在语料中每个词都出现足够多次，这样我们就可以通过词的上下文获得该词的词表示。但在现实世界的场景中，经常有些词不会频繁出现在训练集中，这就为学习他们的词表示带来了挑战。

为此，今天我们要介绍的这篇论文将学习词表外词表示看做few-shot回归问题，提出了一种新的基于层次关注的架构作为神经回归函数，利用该神经回归函数，从K个观察值对单词的上下文信息进行编码和聚合。此外，还可以利用模型不可知元学习（MAML）来快速有效地使学习模型适应新的语料库。

论文模型 Model

最近关于上下文词表示的工作[1]表明，使用深度模型以自监督的方式捕捉语言特定的语义语法知识是可行的。在这些工作的启发下，本文提出了一种分层上下文编码（HiCE）架构，用于从上下文中提取和聚合信息，并且可以轻松地合并上下文的形态特征。

文中HiCE主要基于[2]提出的自注意编码块，每个编码块包含一个自注意层和一个逐点全连接层。这样的编码块可以丰富序列输入的交互并有效地提取本地和全局信息。

自关注（SA）是注意机制的变体，可以单独参与序列，其表达式如下

image (16).png

在上式中，对于每一个head，首先通过三个不同的线性投影W将序列输入矩阵x转换为查询-键-值矩阵，然后计算矩阵内积

image (17).png ，再按序列输入的维数的平方根进行缩放获得序列的相互关注矩阵，最后使用计算的关注矩阵聚合值矩阵，得到aself,i作为第i个自注意向量。

将这些自注意向量结合起来与线性投影WO相乘，得到可以表示序列x相互关系的不同方面的SA(x)：

image (18).png

自关注层之后是完全连接的前馈网络（FFN），其对序列输入x的每个位置应用非线性变换。

如图1所示，HiCE主要包括上下文编码器和多上下文聚合器两层。对于每个给定单词wt及其K掩码的支持上下文集合

image (19).png ，较低级别的上下文编码器（E）将每个句子st,k作为输入，经过位置关注和自注意编码块，输出编码的上下文嵌入 image (20).png 。之后，多上下文聚合器通过另一个自关注编码块组合了多个编码的上下文。由于上下文的顺序可以是任意的，不应影响聚合，因此不需要在多上下文聚合器中应用位置注意。

为了解决训练语料与实际使用的语言语义差异，本文采用模型不可知元学习（MAML）[3]来实现快速和稳健的适应。MAML不是简单地微调DN上的神经回归函数Fθ，而是提供了一种学习微调的方法。也就是说，首先在DT上训练模型以获得更有希望的初始化，基于此，仅通过几个示例对DN上的模型进行微调就可以很好地概括。

对于训练时的每一次迭代，首先使用DT中的足够数据进行梯度下降以学习更新的权重θ*

image (21).png

然后将θ*视为初始化权重，以优化DN中有限数据的θ。每个训练集的最终更新可以表示为：（其中α和β都是两个学习率的超参数）

image (22).png

上述优化可以用随机梯度下降（SGD）进行。通过这种方式，从DT学到的知识可以提供良好的初始表示，可以通过DN中的一些示例进行有效微调，从而实现快速和稳健的自适应。

论文实验 Test

本文在Chimera Benchmark上对词嵌入以及一些下游任务（NER、POS tagging）进行了评估，实验效果如下表所示，实验表明，在DT上训练的HiCE已经能够利用可以通过不同域传递的一般语言知识，并且通过MAML的适应可以进一步缩小域差距并提高性能。

参考文献

[1] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. In NAACL-HLT, pages 2227–2237. Association for Computational Linguistics.

[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS, pages 6000–6010.

[3] Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, pages 1126–1135.

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

理论ACL 2019词嵌入元学习梯度下降智能营销自监督学习计算机视觉

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

学习率技术

在使用不同优化器（例如随机梯度下降，Adam）神经网络相关训练中，学习速率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习速率太大容易导致目标（代价）函数波动较大从而难以找到最优，而弱学习速率设置太小，则会导致收敛过慢耗时太长

来源：Liu, T. Y. (2009). Learning to rank for information retrieval. Foundations and Trends® in Information Retrieval, 3(3), 225-331. Wikipedia

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

元学习技术

元学习是机器学习的一个子领域，是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是，我们如果想使智能体掌握多种技能、适应多种环境，则不应该从头开始在每一个环境中训练每一项技能，而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务，因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法，又叫元学习（meta-learning），是通往可持续学习多项新任务的多面智能体的必经之路。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

随机梯度下降技术

梯度下降（Gradient Descent）是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知，使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。在机器学习中，我们可以利用随机梯度下降的方法来最小化训练模型中的误差，即每次迭代时完成一次评估和更新。这种优化算法的工作原理是模型每看到一个训练实例，就对其作出预测，并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

来源：机器之心

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia