人类一败涂地?DeepMind推出Agent57,在所有雅达利游戏上超越人类玩家

让单个智能体完成尽可能多的任务是 DeepMind 一直以来的研究目标,也被该公司视为迈向通用人工智能的必经之路。去年,DeepMind 推出的 MuZero 在 51 款雅达利游戏中实现了超越人类的表现。时隔数月,DeepMind 在这一方向上更进一步,在 57 款雅达利游戏中全面超越人类,在这一领域尚属首次。

机器之心报道

机器之心编辑部


DeepMind 在最新发布的预印本论文和博客中介绍了这一进展。他们构建了一个名为 Agent57 的智能体,该智能体在街机学习环境(Arcade Learning Environment,ALE)数据集所有 57 个雅达利游戏中实现了超越人类的表现。

如果这一说法成立,Agent57 可以为构建更加强大的 AI 决策模型奠定基础。它还能够随着计算量的增加而扩展,训练时间越长,得分也越高。

论文链接:https://arxiv.org/pdf/2003.13350.pdf

57 款雅达利游戏

利用游戏来评估智能体性能是强化学习研究中的一个普遍做法。游戏中的环境是对真实环境的一种模拟,通常来说,智能体在游戏中能够应对的环境越复杂,它在真实环境中的适应能力也会越强。街机学习环境包含 57 款雅达利游戏,可以为强化学习智能体提供各种复杂挑战,因此被视为评估智能体通用能力的理想试验场。

为什么要选择雅达利游戏?原因有以下几点:

1. 足够多样化,可以评估智能体的泛化性能
2. 足够有趣,可以模拟在真实环境中可能遇到的情况;
3. 由一个独立的组织构建,可以避免实验偏见。

雅达利游戏中,我们希望智能体能够在尽可能多的游戏中表现良好,对当前所处的游戏做出最少的假设,而且不使用特定于某个游戏的信息。

DeepMind雅达利游戏的挑战很早就开始了。2012 年,他们创建了 Deep Q-Network(DQN)算法来挑战雅达利的 57 种游戏,此后又经过了多次改进。但遗憾的是,经过改进的 DQN 也始终没有克服四种比较难的游戏:Montezuma's Revenge、Pitfall、Solaris 和 Skiing。此次新发布的 Agent57 改变了这一局面。
DQN 的改进历程(图片来源于 DeepMind 官方博客)

强化学习的挑战

为实现目前的 SOTA 表现,DeepMind 的 Agent57 使用强化学习算法,并同时运行在多台电脑上,这些 AI 赋能的智能体在环境中选择能够最大化奖赏的动作去执行。强化学习在电子游戏领域已经展现出了极大的潜力——OpenAI OpenAI Five 和 DeepMindAlphaStar RL 智能体分别打败了 99.4% 的 Dota 2 玩家和 99.8% 的星际 2 玩家。然而研究人员指出,这并不意味着目前的强化学习方法就无懈可击了。

RL 中存在长期信度分配(credit assignment)问题,也就是根据信度选取最能够产生之后好/坏结果的动作。当奖赏信号具有延迟并且信度分配需要跨越较长动作序列时,以上问题变得尤为困难。另外 RL 还存在探索和灾难性遗忘的问题。智能体在游戏中获得第一个正奖赏之前,可能需要执行上百个动作,并且智能体很容易被困在从随机数据里寻找规律的过程中,或当学习新的信息时突然忘记之前已学到的信息。


NGU(Never Give Up)是一种在两个层面上通过从内部产生固有奖赏来增强奖励信号的技术:在单个 episode 中的短期新颖激励和跨越多个 episode 的长期新颖激励。使用 episodic 记忆,NGU 学会了一系列用于探索和利用(exploring and exploiting)的策略,最终目标是利用习得策略获得游戏的最高得分。

为解决以上问题,DeepMind 团队在 NGU 基础上构建了新的 RL 算法。NGU 的缺陷之一为:其通过不同策略来收集相同数量的经验,而忽略了不同策略在学习过程中的贡献。与之不同的是,DeepMind 的实现将其探索策略贯穿在智能体的整个生命周期中,这使得智能体能够根据其所处的不同游戏有针对性地学习策略。

两种 AI 模型+元控制器:Agent 57实现最佳策略选择

Agent57 总体框架(图片来源于 DeepMind 官方博客)

至于 Agent57 的具体架构,它通过将众多 actor 馈入到学习器可以采样的一个中央存储库(经验回溯缓冲器),进而实现数据收集。该缓冲器包含定期剪枝的过渡序列,它们是在与独立、按优先级排列的游戏环境副本交互的 actor 进程中产生的。

DeepMind 团队使用两种不同的 AI 模型来近似每个状态动作的价值(state-action value),这些价值能够说明智能体利用给定策略来执行特定动作的好坏程度,这样就使得 Agent57 智能体可以适应与奖励相对应的均值与方差。他们还整合了一个可以在每个 actor 上独立运行的元控制器,从而可以在训练和评估时适应性地选择使用哪种策略。

Agent57 与其他算法的性能对比。图源:DeepMind

研究者表示,这个元控制器具有以下两大优势:其一,得益于训练中的策略优先级选择,它可以使得 Agent57 分配更多的网络容量来更好地表征与手边任务最相关策略的状态行动值函数;其二,它以一种自然的方式在评估时选择最佳策略。


实验结果

为评估 Agent57 的性能,DeepMind 团队将这种算法与 MuZero、R2D2 和 NGU 等领先算法进行了对比。实践可知 MuZero 在全部 57 种游戏中达到了最高平均分(5661.84)和最高中值(2381.51),但也在 Venture 等游戏中表现很差,得分只到和随机策略相当的水平。

实际上,与 R2D2(96.93)和 MuZero(89.92)相比,Agent57 的总体表现上限更高(100),训练 50 亿帧即在 51 种游戏上超越了人类,训练 780 亿帧后在 Skiing 游戏上超越了人类。

随后研究人员分析了使用 meta-controller 的效果。与 R2D2 相比其性能可以提高近 20%,即使在 Solaris 和 Skiing 这种智能体需要收集长时间段信息才能学习所需反馈的长期回报游戏中,也有明显的效果。
谷歌在博客中表示:「Agent57 最终在所有基准测试集最困难的游戏中都超过了人类水平。但这并不意味着 Atari 研究的结束,我们不仅要关注数据效率,也需要关注总体表现……未来的主要改进可能会面向 Agent57 在探索、规划和信度分配上。」

足够惊艳,但有炒作之嫌?

DeepMind 推出 Agent57 之后,其宣称在所有雅达利游戏上超越人类的口号吸引了业内人士的关注。但也有网友提出了一些疑问。

下面这位网友对 DeepMind 宣称的「human」提出了质疑,认为 Agent57 超越的只是「average human」。他以《蒙提祖玛的复仇》为例,表示 Agent57 的分数(9352.01)只是超越了「average human」(4753.30),但并未打破人类玩家的记录 1219200.0。


另外,也有人指出了 DeepMind 的研究总是侧重于在雅达利等游戏上的性能表现,应该更多地关注现实世界的实际问题。


不过,人们对于从 DQN 到 Agent57 这一算法改进的「系统树」保持了肯定的态度。这一方向对于强化学习的进步究竟有多大意义,还需要时间来验证。


参考链接:
https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark
https://venturebeat.com/2020/03/31/deepminds-agent57-beats-humans-at-57-classic-atari-games/
入门Agent57强化学习DeepMind
相关数据
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

https://www.openai.com/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中,DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa,引起了业内极大的关注。DeepMind 官方博客介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

雅达利游戏技术

雅达利(英语:Atari,NASDAQ:ATAR)是美国诺兰·布什内尔在1972年成立的电脑公司,街机、家用电子游戏机和家用电脑的早期拓荒者。不少诸如《乓》、《爆破彗星》等的经典早期电脑游戏的发行,使雅达利在电子游戏历史上举足轻重。经典游戏主机为1977年发行的雅达利2600。

推荐文章
暂无评论
暂无评论~