Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陈萍、小舟编辑

DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效

本文提出了一种新的RLHF算法ReST,极大地提高了翻译质量。

这几个月以来,我们已经见证了大型语言模型(LLM)在生成高质量文本和解决众多语言任务方面出色的能力。然而,LLM 又面临这样一个困境,即产生的输出很大程度上与人类偏好并不一致。如果没有适当的对齐,语言模型可能输出不安全的内容。此外,对齐 LLM 还有助于改善下游任务。

有研究者提出基于人类反馈的强化学习 (RLHF),通过使用人类偏好来解决对齐问题。

一般来讲,RLHF 依赖于 PPO、A2C 等在线 RL 方法,但这些方法计算成本高昂且容易遭受攻击;虽然离线 RL 可以避免在线 RL 的缺陷,然而,离线学习的质量过分依赖离线数据集的属性。因此,精心策划的数据集对离线强化学习来说非常重要。

本文,来自 Google DeepMind 的研究者提出了一种简单的算法使 LLM 与人类偏好对齐,他们将该方法命名为 ReST(Reinforced Self-Training)。不同于 RLHF 使用人类反馈改进语言模型,ReST 通过生成和使用离线数据进行训练,从而使得 LLM 与人类偏好保持一致。

给定一个初始 LLM 策略,ReST 能够根据该策略生成数据集,然后该数据集基于离线 RL 算法被反过来提高 LLM 策略。ReST 比典型的在线 RLHF 方法更有效,因为训练数据集是离线生成的,这允许数据重用。

研究团队表示,虽然 ReST 可用于所有生成任务,但本文的重点是机器翻译。结果表明,ReST 可以极大地提高翻译质量。


论文地址:https://arxiv.org/pdf/2308.08998.pdf


有研究者评论道:「DeepMind 展示了自然语言生成的迭代自我改进。他们将『人』从人类反馈强化学习 (RLHF) 循环中剔除,提出 ReST。」


下面那我们看具体实现方法。


方法介绍

该研究提出了一种称为强化自训练(Reinforced Self-Training,ReST)的 RLHF 算法,ReST 可将语言模型的输出与人类偏好保持一致。人类对序列的偏好是使用学得的奖励函数来建模的。ReST 算法将典型 RL pipeline 的数据集增长(Grow)和策略改进(Improve)解耦成两个单独的离线阶段。

如下图 1 所示,ReST 方法包括两个循环:内循环(Improve step)和外循环(Grow step)。并且与在线或离线 RL 的典型 RLHF 方法相比,ReST 具有以下优势:

  • 与在线 RL 相比,ReST 由于在 Improve step 中利用了 Grow step 的输出,因此计算负担大大减少;
  • 策略的质量不在受原始数据集质量的限制(如离线 RL),因为新的训练数据是从 Grow step 中经过采样得到的;
  • 检查数据质量并判断对齐变得更加容易,因为 Improve step 和 Grow step 这两个过程是解耦的;
  • ReST 简单、稳定,并且只有少量的超参数需要调优。


该研究首先训练一个初始模型,在给定序列对数据集 D 的情况下,使用如下等式 (1) 中的 NLL 损失将输入序列𝒙映射到输出序列𝒚。


接下来,Grow 步骤会创建一个新的数据集 D_𝑔,使用模型中的样本来扩充初始训练数据集:


其中,条件输入是从原始数据集中重新采样的,就像自训练一样;但在可以访问 𝑝(𝒙) 的情况下也可以直接从中采样,即。例如,在文生图模型中,文本输入的分布可以从语言模型 𝑝(𝒙) 中采样。

然后,Improve 步骤使用 D_𝑔 来微调策略𝜋_𝜃。值得注意的是,该研究将原始数据集保留在训练中,以确保策略不会发散。


整个 ReST 算法如下图算法 1 所示,其中包含多个数据集增长和策略改进步骤:


实验


研究者在机器翻译任务上进行了实验,测试基准包括 IWSLT 2014 、 WMT 2020 、 Web Domain 。

图 3 绘制了带有多个 Improve steps 的平均奖励:可以看到,随着 Improve steps 增加,翻译模型在所有三个数据集上的性能都得到了提高。


增加 Grow step(G)能否提高奖励模型的得分?带着这一问题,研究者进行了另一项实验。结果如图 4 所示,带有一个 Grow step 的方法在 IWSLT 2014 和 Web Domain 数据集上有所提高,当 Grow step 为 2 时,模型将得分从 77.8 提高到 80.5,提高了 5.3。


ReST 是否优于监督训练?结果如图 5 所示,即使在第一个 grow step 之后,ReST 的不同变体(紫色)也显着优于监督学习(灰色)。


ReST 可以在推理时使用 Best-of-N 采样进一步改进吗?图 6 展示了 BC( behavioral cloning )和 ReST 变体之间的 Best-of-N 抽样结果。ReST 的性能随着 𝑁 和 Improve step 数量的增加而提高。得出 ReST 仍然可以从 Best-of-N 采样中受益。


ReST 与在线 RL 相比如何?该研究将 ReST 与 PPO 进行了比较,PPO 是一种广泛用于 RLHF 的在线 RL 算法。结果总结在表 1 中。


下图表明,所有 ReST 变体在人类评分方面优于 BC 方法:

理论RLHFDeepMind
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~