奖励破解 | 机器之心

简介

奖励破解是指强化学习智能体想办法通过做设计者意图之外的事情来获取大量奖励的行为。OpenAI 的赛船比赛智能体就是一个典型案例，其找到了一种方法，可通过不断重复转圈并击中同一奖励方块来获取更多奖励（openai.com/blog/faulty-reward-functions）。这是当今人工智能系统的一个常见现象，且并不特定于强化学习——这通常被称为博弈目标规范或「规范博弈（specification gaming）」。这里给出了超过 40 个规范博弈的示例：tinyurl.com/specification-gaming。

发展分析

瓶颈

这个问题难以解决的地方在于一个被称为「古德哈特定律（Goodhart's law）」的效应：一旦一个指标成为了目标，它就不再是一个好指标。当设计者指定一个智能体目标时，其规范并没有体现人类偏好的完整复杂性。则智能体就有动力去利用规范和意图目标之间不一致的地方。

未来发展方向

当前针对奖励破解的最有希望的方法是人类反馈方法，比如奖励学习，即智能体接收可以校正奖励破解行为的人类反馈。但是，如果智能体停止接收人类反馈，它又可能找到欺骗自身奖励模型的方法。举个例子，一个玩「乒乓球」的智能体找到了一种从奖励模型获得大量分数的方法，即通过反复来回传球来得分：

https://deepmind.com/research/publications/deep-reinforcement-learning-human-preferences/

Contributor: Victoria Krakovna

Victoria Krakovna 是DeepMind 一位研究科学家，研究方向为长期AI 安全（试图研究清楚如何为未来可能发展的先进AI 系统设置优良的动机）。Victoria 在哈佛大学的博士研究方向为统计学和机器学习，专注于构建可解释模型。Victoria 联合创立了未来生活研究所（Future of Life Institute），这是一个旨在降低人类面临的技术风险以及提升积极未来的可能性的非营利组织。

简介