Bowen Tan , Zhiting Hu , Zichao Yang, Ruslan Salakhutdinov, Eric P. Xing作者张倩、路编译Medium选自

Petuum提出序列生成学习算法通用框架

近日,来自人工智能创业公司 Petuum 的研究人员发表论文,提出序列生成学习算法的通用框架——广义的熵正则化策略优化框架(Generalized Entropy-Regularized Policy Optimization)。该框架是对包括最大似然学习 (MLE)、增强学习 (RL) 等多种广泛使用的算法的泛化。研究人员进而提出一种新的序列生成算法,该算法在已有算法中进行动态插值,在机器翻译和文本摘要任务中实现了稳定的提升。

序列生成是一个常见的机器学习任务,比如机器翻译、文本摘要、图像字幕生成等。

近日,Petuum 发布论文《Connecting the Dots Between MLE and RL for Sequence Generation》,对多种广泛使用的序列生成学习算法提出了统一的视角,即广义的熵正则化策略优化框架。可以证明这些算法在数学上等同于在框架中设定不同参数的特例。该研究提供了对不同算法的系统性的理解和对比,并启发更多的算法提升。基于此通用框架,研究人员还提出了一种新的插值算法,在机器翻译和文本摘要任务中实现了稳定的提升。

序列模型的发展(如具备不同单元和注意力机制的循环神经网络)促进了序列生成任务的进步。这些模型通常可以使用多种不同的学习算法进行训练,详见下文。

常用的序列生成学习算法(点)

标准的训练算法基于最大似然估计(MLE),即试图最大化真实数据的对数似然(data log-likelihood)。尽管 MLE 训练计算简单、高效,但它会遭遇曝光偏差(exposure bias)。即模型在预测下一个 token 时使用的是真实数据中的 token,而训练出的模型在测试时无法得到真实数据而只能使用模型预测出的 token。这种训练和测试之间的偏差导致预测出现误差,且随着序列长度的增加,这一偏差也会越来越大。

很多研究试图解决该问题,其中一些基于强化学习 (RL)。例如,Ranzato 等人在《Sequence Level Training with Recurrent Neural Networks》中采用策略梯度算法,通过在训练和测试阶段使用同样的解码策略来避免这种偏差。但是,基于 RL 的序列生成方法会面临极低的采样效率和极高的方差。

为了使训练更加可行,其他研究人员提出了多种方法,这些方法介于 MLE 和 RL 之间。例如,RAML 对 MLE 数据样本根据 reward 函数进行扰动,SPG 基于 reward 分布实现策略梯度的高效采样,数据加噪(data noising)等方法也有一定的性能提升。

最大似然估计(MLE)

最大似然估计是训练序列生成模型最常用的方法。MLE 旨在寻找最大化数据对数似然的最优参数值:

奖励增强最大似然(RAML)

RAML 最初用于将特定任务的 reward(task metric reward)纳入 MLE 训练,该方法相对于原版 MLE 有很大的性能提升。具体来说,RAML 引入了一个指数 reward 分布 e(y|y*) ∝ exp{R(y|y*)},其中 R 指任务度量(如 BLEU)。RAML 最大化以下目标函数

如果我们将 e(y|y*) 中的任务奖励 R 换成 MLE 的 δ 奖励,则 RAML 目标函数等同于原版 MLE 目标函数,即:

数据加噪

向训练数据添加噪声是常用的正则化方法。之前的研究提出多种适合序列生成 的数据加噪策略。例如,将数据 y* 中的每个 token 以概率 γ 替换成噪声 token,每个噪声 token 随机从一元频率分布(unigram frequency distribution)中采样获得。然后将得到的带噪声数据用于 MLE 训练。形式上来看,它等同于使用奖励函数:

其中 u(·) 表示一元频率分布。使用松弛(即平滑)奖励后,数据加噪一定程度上扩展了原版 MLE 的探索空间。其效果本质上等同于 RAML 算法,区别在于 RAML 基于任务奖励函数来扩展探索空间。

Softmax 策略梯度 (SPG)

SPG 旨在适应原版策略梯度,用作采样的奖励函数。SPG 的目标函数如下:

其中 R 表示 reward 函数。作为标准策略梯度算法的变体,SPG 旨在解决曝光偏差问题,并表现出了卓越的结果。

图 1:不同算法的有效探索空间。(a):MLE 的探索空间即训练样本的集合。(b):RAML 和数据加噪使用平滑的奖励函数,允许训练样本周围的较大探索空间。(c):常见的策略优化算法(如 SPG)大体上允许全部探索空间。

连点成线

Petuum 对这些学习算法构建了一个统一的视角。具体来说,他们展示了一个广义熵正则化策略优化(ERPO)框架,并证明明显不同的多种算法(如 MLE、RAML、SPG 和数据加噪)都可以重新公式化为该框架中的特殊实例,唯一的区别在于 reward 函数和参数值的不同选择。

除了对已有算法进行全新诠释以外,该统一视角还推动了新算法的开发。研究人员展示了一个新算法,随着训练的进行,新算法对 reward 函数和参数值退火,从而逐渐扩展探索空间。退火实际上就是在已有算法中进行动态插值。在机器翻译和文本摘要任务上的实验表明,该插值算法比已有的方法有显著提升。

通用框架

该研究提出的通用框架旨在用常见的数学公式统一上述算法。该框架基于策略优化,策略优化即在模型分布下最大化期望奖励。大量关于熵正则化策略优化(ERPO)的研究通过用信息论正则化项增强策略优化来稳定学习。Petuum 研究人员提出一个 ERPO 的通用公式。假设变量分布为 q(y|x),则我们采用以下目标函数

其中 (x, y*) 表示训练数据对,y 指在 q(y|x) 分布中采样的句子,KL(·||·) 表示 KL 散度,H(·) 是香农熵,α 和 β表示相应项的均衡权重,pθ 指用 θ 进行参数化的序列生成模型

使用拉格朗日乘子法,该目标函数可以通过类似 EM 算法的步骤分别优化 q 和θ。在第 n 次迭代时:

现有算法是特殊实例

我们可以将已有的序列生成算法表示为该框架的特殊实例。

最大似然估计(MLE)

使 (R = Rδ, α → 0, β = 1)。如果 y = y*,则 ERPO 的 E-step 中 q(y|x) = 1,反之结果为 0。因此 M-step 与以下公式等价:

可见上式精确地还原了 MLE 的目标函数

也就是说,MLE 可以看做带有 δ 奖励及上述权重值的策略优化算法的一个实例。任何不能精确匹配数据 y* 的样本 y 都将收到负无穷奖励,从而永远不对模型学习做出贡献。

奖励增强最大似然(RAML)

如果用 MLE δ 奖励取代 e(y|y*) 中的任务奖励 R,则 RAML 目标函数就将等同于原版 MLE 目标函数。MLE 和 RAML 之间的这种关系在 ERPO 中仍然存在。与在 ERPO 中还原 MLE 的方法类似,使 (α → 0, β = 1),但将 R 设置为任务度量奖励,则 ERPO 的 M-step 精确地等同于最大化上述 RAML 目标函数

数据加噪

数据加噪也可以作为 ERPO 框架中的特殊实例。从取 (R = Rδ, α → 0, β = 1) 的 MLE 的 ERPO 重公式化开始,数据加噪可以用上述一元松弛 Rδ 进行公式化。

Softmax 策略梯度(SPG)

SPG 可以轻松兼容 ERPO 框架。将 SPG 目标函数的梯度设为 θ,我们可以立即得到与 ERPO 相同的更新规则,(α = 1, β = 0, R = common reward)。

注意,SPG 和 RAML 配置中唯一的区别在于现在 α = 1。与 RAML 相比,SPG 利用奖励分布和模型分布使探索空间更向前了一步。从理论上来讲,在训练阶段进行充分的探索将提高测试阶段的性能。然而,随着训练难度的增加,必须使用额外的复杂优化及近似技术(Ding & Soricut, 2017),使训练更加可行。

图 2:不同学习算法的统一表述。每个算法对通用 ERPO 框架来说都是一个特例,采用了参数 (R, α, β) 的某些特定取值。

应用:插值算法

在广义 ERPO 框架中,一系列常用学习算法都可以被理解为具有三个特定规格参数 (R, α, β) 的实例。每个算法都可以被视为参数空间(图 1)中的一个点。通常,具有更受限的奖励函数 R 和非常小的 α 的点具有更小的有效探索空间,并且允许高效学习(如 MLE),相比之下,带有平滑 R 和较大 α 的点将导致更难的学习问题,但允许更高效的探索和更好的测试性能(如 (softmax) 策略梯度)。研究人员在论文中还探索了一种对现有算法进行插值的示例算法。

插值算法从最受限但最简单的配置 (MLE) 开始学习,并逐渐扩展探索空间以减少和测试阶段之间的差异——由易到难的学习范式。由于已经将常用算法映射参数空间中的点,因此插值变得非常简单,只需参数值的退火。

实验结果

研究人员在机器翻译和文本摘要任务上评估了上述插值算法。如下图所示,与之前的方法相比,该算法达到了更好的效果。图 3:上图是不同学习算法在机器翻译任务上的收敛曲线。下图是与 MLE 相比,该算法在文本摘要任务上的提升。

论文:Connecting the Dots Between MLE and RL for Sequence Generation

  • 论文链接:https://arxiv.org/abs/1811.09740

  • 代码:https://github.com/asyml/texar/tree/master/examples/seq2seq_exposure_bias

该研究的代码实现基于 Texar,一个通用、易用的文本生成工具库。

原文链接:https://medium.com/@texar/connecting-the-dots-between-mle-and-rl-for-sequence-generation-d65830b0eaf6

理论Petuum框架序列生成论文
2
相关数据
槃腾机构

槃腾科技是为企业提供AI的软件基础架构和生态系统提供商。 Petuum的操作系统为用户提供了一个集成式的AI平台,可以让用户使用大量数据构建任何机器学习或深度学习应用程序,并将其大规模部署在任何硬件上,例如工作站,数据中心,物联网和边缘计算等。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

最大似然估计技术

极大似然估计是统计学中用来估计概率模型参数的一种方法

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

推荐文章
暂无评论
暂无评论~