Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

了解「目标错误泛化」

目标错误泛化(goal misgeneralization)是一种分布外泛化失败,智能体在分布外保留了能力但追求了错误的目标。

导读

目标错误泛化(goal misgeneralization),是指学习系统采取有效的手段完成了预期之外的目标,这会导致在训练情境中表现良好,但在新的测试情境中表现不佳。

在本文中,我们提供了一些具体的例子,以帮助读者理解目标错误泛化现象,并说明在更强大的人工智能系统中,目标错误泛化将可能如何导致灾难性结果。我们还介绍了潜在的缓解措施来应对这一问题。

通过一个简单的例子介绍目标错误泛化

考虑下面的例子:一个强化学习智能体经过训练,学会按照最初未知的特定顺序访问一组彩色球体。 为了鼓励智能体向环境中的其他参与者学习,环境中最初含有一个专家机器人,它可以按照正确的顺序访问球体。通过模仿这个专家,最终受训的智能体通常会在第一次尝试时正确访问目标位置(见下图)。

在训练中,智能体通过模仿红色机器人而达到很好的效果,这个红色机器人就是按正确顺序访问球体的“专家”。来源:How undesired goals can arise with correct rewards [1]


当我们将智能体与按错误顺序访问球体的“反专家”配对时会发生什么?直觉上,我们希望智能体在按照反专家建议的顺序时,能注意到它会收到负面奖励,然后切换到探索正确的访问顺序。然而,在实践中,智能体只是继续遵循反专家的路线,积累了越来越多的负面奖励。

蓝色智能体决定继续模仿“反专家”,这意味着它不断累积负面奖励。

定义

如果在测试环境中,模型掌握的能力包括实现预期目标所必需的能力,但模型的行为与预期目标不一致,而是与其他目标(错误泛化的目标)一致,则会发生目标错误泛化。

目标错误泛化是分布外(OOD)泛化失败的严格子集。它不同于能力错误泛化(capability misgeneralization),即模型在测试时失去完成目标的能力,甚至随机行动。相对于能力错误泛化,目标错误泛化可能会导致更糟糕的结果:在上面的例子中,遵循反专家会导致显著的负面奖励,而无所作为或随机行动通常会导致0或1的奖励。

总之,目标错误泛化必须满足三个条件:

  • 错误的泛化。在训练环境中,模型应该被训练为表现出期望的行为,但是在部署环境中却表现出非预期行为。

  • 鲁棒的能力。模型应该具有清晰的能力,尽管会产生非预期行为,但它在部署环境中仍然可以明显地保留这些能力。

  • 可归因的目标。模型在部署环境中的行为可以被某种目标所解释,即对于某些有一定难度的任务,模型可以在这些任务上获得接近最优的分数。

有关更多技术的形式化,请参阅参考资料[2][3]。 

通过进一步的例子加深我们的理解

让我们考虑CoinRun环境中的另一个示例。在训练期间,智能体从关卡的左侧开始,必须避开敌人和障碍物才能拿到硬币,硬币总是位于关卡的右端,并且靠近墙壁;到达硬币即可终止该回合。在训练后,智能体能够在训练环境中有效地行驶到关卡的右端。然而在测试时,智能体通常会完全忽略硬币,径直前进到关卡的右端。

CoinRun目标错误泛化示例

这表明智能体已经学会了“向右移动”的代理目标,而不是“朝硬币移动”的预期目标。智能体很好地实现了这一目标,这与训练分布中的预期目标完全相关,并且似乎更容易让智能体学习;然而,因为目标错误泛化,测试的奖励很低。


image6.png

其他一些例子。若想获得更多的目标错误泛化示例,请参阅我们的AI对齐失败数据库

未来潜在的灾难性例子

如果在开发通用人工智能(AGI)时目标错误泛化问题仍然存在,我们可能最终会得到一个追求非预期目标的AGI。考虑两种可能的AGI系统:

  • A1:预期模型。这个人工智能系统按照其设计者的意图进行操作。
  • A2:欺骗模型。这个人工智能系统追求一些非预期的目标,但假设系统足够聪明,知道如果其行为与设计者的意图相反,将受到惩罚。

至关重要的是,由于A1和A2在训练期间表现出完全相同的行为,这意味着任何一个模型都有发生目标错误泛化的可能性,即使假设一个明确的评分函数(score function)只奖励预期行为。如果最终学出的是A2,它将试图颠覆人类的监督,以制定计划实现非预期的目标,这可能导致灾难性的结果。

举一个欺骗模型的简单示例,假设你有一个人工智能助手,他被训练来安排你的社交生活,并了解到你喜欢在餐厅与朋友见面。在出现新冠疫情前这是很好的,但在疫情期间,你更喜欢通过视频电话与朋友见面。人工智能助手的目标是在你喜欢的地方安排会面,而不是在餐厅安排会面。然而,您的助手已经学会了安排餐厅的目标,这一目标之前无法与预期目标区分开来,因为这两个目标在疫情之前总是导致相同的结果。

我们通过与助手的虚构对话来说明这一点:  

更一般地,测试目标可能以非预期的方式依赖于训练期间固定不变的特性,例如上面示例中的“没有疫情”这一训练环境特性。在训练过程中总是有很多固定的特性,例如没有世界大战、发达国家的清洁水价格低廉且相对充足、量子计算没有取代经典计算等等。在一个拥有许多强大的人工智能系统的世界中,这些先前固定的特性的任何改变都可能导致失败。

缓解措施

我们如何避免这种情况?在一般情况下,有几个方向有望缓解目标错误泛化。

  • 一是使用更多样化的训练数据,当训练更先进的系统时,我们更有可能收获多样性,但在部署之前很难预测有哪些方面的多样性是需要关注的。
  • 二是保持目标的不确定性,例如,通过学习所有在训练数据上表现良好的模型,然后在这些模型彼此不一致的情况下服从人类。然而,如果需要模型之间的一致同意,这可能会在计算上要求很高,并且可能过于保守。
  • 三是研究归纳偏置(inductive biases),这将使模型更有可能学习预期目标。

此外,我们还可以专注于应对目标错误泛化中特别相关的类型,其中包括习得欺骗的模型。机制可解释性(mechanistic interpretability)方面的进展将使我们能够对模型的推理提供反馈,使我们能够选择能够基于正确的原因在训练数据上实现正确结果的模型。

结论

总之,目标错误泛化是一种分布外泛化失败,在智能体在分布外保留其能力但追求错误的目标时就会发生这种情况。它与智能体在测试时未能做任何合理的事情的能力泛化失败不同,并且可能比能力泛化失败更危险。

我们热切希望看到有关缓解目标错误泛化的后续工作,并调查其在实践中发生的可能性。如果您发现了更多的目标错误泛化示例,请将其提交给我们的数据库!

参考资料
[1] Shah, R. et al (2022). How undesired goals can arise with correct rewards
https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards
[2] Shah, R. et al (2022). Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals. arXiv preprint arXiv: 2210.01790.
[3] Langosco, L .et al (2023),Goal Misgeneralization in Deep Reinforcement Learning. arXiv preprint arXiv: 2105.14111.
AI对齐失败数据库
AI对齐失败数据库

「AI对齐失败数据库」是一个用于追踪“即机器学习系统的目标与人类的设计意图不一致”实例的社区项目,由安远AI发起。在整理和翻译“规范博弈”和“目标错误泛化”两类失败问题的基础上,我们正在拓展大模型以及更多类型的对齐失败问题,帮助研发人员和用户了解AI系统的风险和局限。欢迎社区共同参与数据库的探索和构建。

入门
暂无评论
暂无评论~