Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

在对齐 AI 时,为什么在线方法总是优于离线方法?

在线和离线对齐算法的性能差距根源何在?DeepMind实证剖析出炉

在 AI 对齐问题上,在线方法似乎总是优于离线方法,但为什么会这样呢?近日,Google DeepMind 一篇论文试图通过基于假设验证的实证研究给出解答。

图片

  • 论文标题:Understanding the performance gap between online and offline alignment algorithms

  • 论文地址:https://arxiv.org/abs/2405.08448

根据人类反馈的强化学习(RLHF)随着大型语言模型(LLM)发展而日渐成为一种用于 AI 对齐的常用框架。不过近段时间,直接偏好优化(DPO)等离线方法异军突起 —— 无需主动式的在线交互,使用离线数据集就能直接对齐 LLM。这类方法的效率很高,也已经得到实证研究的证明。但这也引出了一个关键问题:

AI 对齐是否必需在线强化学习

对于这个问题,人们希望既知道其理论上的答案,也希望明晰实验给出的解答。

从实证角度看,相比于大家常用的在线 RLHF(由偏好建模和从模型采样组成),离线算法实现起来要简单得多,成本也低得多。因此,收集有关离线算法的充分性的证据可让 AI 对齐变得更加简单。另一方面,如果能明晰常用在线 RLHF 的优势,也能让我们理解在线交互的基本作用,洞见离线对齐方法的某些关键挑战。

在线算法与离线算法的对比

要公平地比较在线和离线算法并非易事,因为它们存在许多实现和算法方面的差异。举个例子,在线算法所需的计算量往往大于离线算法,因为它需要采样和训练另一个模型。因此,为了比较公平,需要在衡量性能时对不同算法所耗费的预算进行一定的校准。

DeepMind 的这项研究中,研究团队在比较时并未将计算量作为一个优先考虑因素,而是采用了 Gao et al. (2023) 的论文《Scaling laws for reward model overoptimization》中的设置:使用 RLHF 策略和参考 SFT 策略之间的 KL 散度作为预算的衡量指标。

在不同的算法和参数设置中,KL 散度是以一种统一的方式衡量 RLHF 策略与 SFT 策略的偏离程度,从而能以一种经过校准的方式对算法进行比较。

基于古德哈特定律比较在线和离线算法的性能

首先,该团队比较了在线和离线算法的过度优化(over-optimization)行为 —— 该行为可通过将古德哈特定律外推至 AI 对齐领域而预测得到。

简单总结起来,古德哈特定律(Goodhart’s law)可以表述成:一项指标一旦变成了目标,它将不再是个好指标。

该团队采用了与 Gao et al. (2023) 类似的设置,基于一组开源数据集进行了实验,结果表明:在同等的优化预算(相对于 SFT 策略的 KL 散度)下,在线算法的性能表现通常优于离线算法。

图 1 给出了在线和离线算法在四个不同的开源数据集上表现出的 KL 散度与策略性能之间的权衡。图中的每个数据点代表了在训练过程中某个特定检查点下,针对特定一组参数的策略评估结果。

图片

其中,对于在线算法,参数并未被大量调整,而是始终使用一组固定的参数;对于离线算法,则是将不同参数的结果池化后得出。可以观察到如下结果:

  • 符合古德哈特定律的过度优化。不管是在线还是离线算法,性能都会随 KL 散度先升后降。后期下降的原因是过度优化效应,这符合古德哈特定律的预测。

  • 在线算法能比离线算法更高效地使用 KL 散度预算。相比于离线算法,在线算法似乎通常能实现更好的权衡。具体而言,在 KL 散度度量的预算一样时,在线算法得到的性能通常优于离线算法。在不同的 KL 散度层级上,在线算法在所有任务上的峰值性能都高于离线算法。其中,在 OpenAI 摘要和 Anthropic 辅助任务上的峰值性能差异显著,在另两个任务上的峰值差异较小。

总之,在线算法完全胜过离线算法,这也奠定了后续研究的基础。

对于在线和离线算法性能差异的假设

为了更好地理解在线和离线算法性能差异的根源,该团队通过假设验证的形式进行了研究。

也就是说首先提出一些假设,然后验证它是否正确。先来看看他们提出了怎样的假设。

假设 1:数据覆盖情况。在线算法更优的原因是其覆盖的数据比离线数据集更多样化(即随时间变化采样自不同的学习器策略)。

假设 2:次优的离线数据集。离线算法处于劣势,因为其初始的偏好数据集是由一个次优的策略生成的。如果使用有更高绝对质量的响应训练离线算法,则性能会更好。

假设 3:分类能力更好,则性能更好。离线算法通常是将策略作为分类器进行训练。但是,作为分类器,它们可能并不如代理偏好模型那样准确(因为对分类进行参数化的有效方式不同)。如果准确度提升,则其性能也会提升。

假设 4:非对比式损失函数。在这样的性能差异中,有多大部分可归因于对比式的损失函数,而不是离线的样本?

假设 5:扩展策略就足够了。要弥合在线和离线算法之间的差距,只需提升策略大小就足够了。

实验和结果

实验设置

为了验证上述假设,该团队进行了大量对照实验。

所有实验都使用 T5X 模型,并搭配了 T5X 数据和计算框架。为了较好地覆盖 RLHF 问题,他们研究了四种任务:OpenAI 摘要、Anthropic 辅助、聊天竞技场、Anthropic 无害性。

图片

图 2 给出了这些对照实验的设置情况,其整体上基于 Gao et al., 2023。其中,绿框表示数据集,蓝框表示学习到的偏好模型或策略。

图片

图 3 则给出了在线生成数据集的图示。这里的在线算法主要由代理偏好模型和在线学习的策略之间的交互组成。

该团队的实验研究涉及多个维度,其得到的主要结果如下。

数据

该团队提出的一些假设涉及到离线数据集的性质。其中包括假设离线数据集的覆盖情况比在线生成的数据集差;假设离线算法对离线数据集更敏感,而离线数据集中响应的绝对质量要差一些。(图 4 和图 5 分别证否了这两个假设)。

图片

图片

尽管这些假设听上去似乎是对的,但实验结果表明它们无法可信地解释在线和离线算法的性能差距。

他们通过消融研究发现,提升离线优化的一种有效方法是生成分布上接近起始 RLHF 策略(这里就刚好是 SFT 策略)的数据,这本质上就模仿了在线算法的起始阶段。

优化性质

该团队发现判别能力和生成能力之间存在一种有趣的相互作用:尽管离线策略的分类能力胜过在线策略,但离线策略生成的响应却更差(见图 6、7、8)。

图片

图片

图片

不管是类间分类还是类内分类实验,分类性能和生成性能之间的关联似乎都不大。尽管离线和在线采样都是针对一个判别目标优化的,但离线采样是提升在一个静态数据集上的分类准确度,而在线采样则是通过不断改变采样分布来提升生成质量。实验表明,离线策略的生成性能提升不如在线策略的直接。

损失函数与扩展

为了确保所得结果更普适,他们还研究了用于 RLHF 的对比式和非对比式损失函数

图片

在线与离线性能之间的差距似乎总体上持续存在,尽管这种差异的根本原因可能与算法有关。他们也研究了性能差距随策略网络规模扩展的变化情况(见图 10 和 11)。性能差距一直存在这一事实说明:只是扩展模型规模可能无法解决采样问题。

图片

图片

尽管实验结果暗示了在策略采样对模型对齐的根本重要性,但这些结果也许有助于揭示离线对齐算法的实验内部工作原理,并揭示性能差异的根源。总而言之,这些发现为 RLHF 实践者提供了有趣的见解和挑战,并为更有效的 AI 对齐实践铺平了道路。

根据现有的强化学习研究成果,在线比离线更好似乎是显而易见的结论。在线和离线强化学习算法之间的性能差距也已经被多项研究发现,所以这项研究给出了什么不一样的结论呢?

最重要的是,在线 RLHF 算法依赖于一个学习后的奖励模型,该奖励模型是使用与离线 RLHF 算法一样的成对偏好数据集训练得到的。这与常规强化学习设置存在根本性差异 —— 常规强化学习假设能以在线方式获取基本真值奖励,在这种情况下,在线强化学习的优势明显。假设 RLHF 受到奖励信号的瓶颈限制,我们就不清楚在线与离线的差距是否还会这样显著。

从更技术性的角度来看,许多 RLHF 算法采用了上下文赌博机的设计形式,并针对参考策略应用了正则化。这样的算法细节让 RLHF 偏离了常规的强化学习设置,这可能会影响离策略学习问题的严重程度。

工程Google DeepMindAI 对齐
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

策略网络技术

在强化学习中,策略网络指一组相对稳定的关系,这些关系具有非等级和相互依赖的性质,将各个行为者(actor)联系起来。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

古德哈特定律技术

古德哈特定律是一个出自经济学家查尔斯·古德哈特的说法,玛丽莲·斯特拉腾(Marilyn Strathern)将之表述为「当一个措施本身成为目标时,它就不再是一个好的措施。」[1]一个会让此种现象发生的状况,是一个人对一项政策有一定的预期,并以人为手段改变结果的时候。

推荐文章
暂无评论
暂无评论~