参与王淑婷 贾伟

新的一年,DeepMind准备让AI学会「放烟花」

在星际争霸 2 的首场「人机大战」结束后不久,DeepMind 又宣布即将投身另一个游戏「烟花」。与以往不同的是,这是一款非完整信息、多人合作的游戏。研究人员相信这项研究可以带来全新的技术,引导 AI 学会自我学习以及与人类合作的新方法。

近日,DeepMind 与 Google Brain 团队合作发布了 Hanabi 学习环境(HLE)的代码和论文,这是一个基于流行纸牌游戏的多智能体学习和即时通信研究平台。HLE 为 AI 智能体提供了一个游戏界面,并附带了一个基于 Dopamine 框架的学习智能体。

项目 GitHub:https://github.com/deepmind/hanabi-learning-environment

《Hanabi》是以日文命名,中文的直接转写为「花火」,顾名思义就是烟花的意思,它由法国人 Antoine Bauza 设计。这是一款 2-5 人的合作游戏,玩家们尝试通过以正确的顺序在桌面上放置卡牌创造完美的烟花。

在 Hanabi 中,共有五张不同颜色的卡片序列。让游戏变得有趣的是玩家可以看到队友的牌,但不能看到他们自己的牌。沟通在很大程度上通过「提示」动作发生,其中一个人告诉另一个关于他们的牌的事情,以便他们知道要玩什么或丢弃。由于可以提供有限数量的提示,优秀的玩家可以进行战略性沟通并利用惯例,例如「首先丢弃最旧的卡片」。

顶级 Hanabi 沟通战略是「finesse」:finesse 是一个队友的举动,乍一看似乎很糟糕(对我们而言),但如果我们假设队友知道我们不知道的事情,实际上是很棒的。假设我们的同伴玩得很好,我们可以排除这个「第一眼」的解释,并总结一下自己的牌。基于技巧的典型推理可能是:「我的队友知道'红色 2'非常有价值。然而她故意放弃了她的「红色 2」。唯一合乎逻辑的解释是,我现在正拿着另一个'红色 2'。「(如果你玩纸牌游戏 Hearts,你会熟悉黑桃皇后的类似游戏)。由于「finesse」,玩家最终会对游戏形成复杂的解释。从应急沟通(emergent communication)的角度来看,「finesse」很有吸引力,因为玩这个游戏和理解它们都需要超越提示的字面含义并推断出队友的意图——有时候称为「theory of mind」。

那对于 Hanabi,现有的强化学习方法如何呢?事实上,并不如想象的那么好。DeepMind 的第一个实验通过向修改后的重要性加权 Actor - Learner 通过提供有效的、无限量训练来推动这一趋势。他们确定了 200 亿次「有效无限」的动作:这个数字相当于大约 3 亿次游戏或 1.66 亿小时的人类游戏(如果假设一个休闲玩家每次移动大约需要 30 秒)。该算法使用自身的副本进行训练,称之为「self-play setting」。虽然该算法在双人游戏环境中可以学习成功的惯例(平均 22.73 分,可能总共 25 分),但它在四人和五人游戏环境中的表现要比专业玩家或手动编码的机器人差得多:

研究人员在第二次实验中证实了这些发现,这次实验中使用了 1 亿次移动这样更合理的预算,以及我们发布的修改后的 Rainbow 架构(你可以试试:大约 16 小时内在一个 GPU 上训练能够获得 15 分的智能体)。Rainbow 在 2 人游戏中表现也不错,但是在 4 人和 5 人游戏中表现相当差。虽然确实有些技术(如 BAD 方法)能够提高这些分数,但是实现它所需的样本数量表明,在 Hanabi 中发现惯例仍然是一个未解决的问题。

然而,打破自我游戏设置只是一个开始。在其他环境中成功的交流需要高效的编码(不要浪费文字)和适应性(理解听众)。当我们遇到新的人时,我们可能不会对语言的所有术语都达成一致,因此我们倾向于让事情变得更简单一点。例如,DeepMind 将 operator 规范和 Lyapunov 函数排除在(大多数)社交会面之外。适应能力的需求是 Hanabi 的核心:当和一个新的团队一起玩时,这样做你承担的风险才更小——或许是没有进行联系就落子,或许是等待队友先走第一步。虽然人类很容易适应陌生的听众,但 DeepMind 目前最好的智能体却做不到:它们遵循复杂且相当僵化的惯例。

当一个智能体被要求与不熟悉的智能体合作时,这种情况被称为「特定团队游戏(ad hoc team play)」。当自我游戏(self-play)环境要求我们学习最好的惯例时,特定团队游戏需要适应先验未知的惯例。在本文中,DeepMind 团队发现用自我游戏策略训练的智能体在特定环境中惨败。在一个实验中,DeepMind 挑选了 10 个完全训练的 actor-learner 智能体,actor-learner 智能体得分超过 23 分。相比之下,新团队几乎立即出局,平均得分为 2~3 分。DeepMind 发现使用类似相关矩阵的东西来可视化这种效果是有用的,对角线对应于自我游戏评估:

从长远来看,一个提供随机提示的简单手动编码策略平均得分为 5.1 分。当然,这并不是什么很惊奇的事,因为 DeepMind 设计的这款自我游戏智能体并不适合其他玩家。话虽如此,其影响大小的变化(从接近完美到接近零)说明这是现有智能体的一个重要缺点。

很明显,考虑过去十年的结果,机器学习潜力惊人。AI 的下一大步将是让智能体学会交流和推理意图。与 Atari 2600 游戏对深度强化学习领域的激励类似,Hanabi 是一个很好的培养皿,可以用来测试算法如何在对人类来说简单但对 AI 来说比较挑战的场景中学习合作。DeepMind 团队期待能够从 Hanabi 研究中看到完美的合作。

论文:The Hanabi Challenge: A New Frontier for AI Research

论文地址:https://arxiv.org/abs/1902.00506

摘要:在计算机的发展历史上,游戏一直是研究机器如何做出复杂决策的重要试验平台。近年来,机器学习取得了显著的进步,人工智能体在很多领域取得了超越人类专家的表现,其中包括围棋、Atari 游戏以及一些扑克游戏。与它们的国际象棋、跳棋、双陆棋前身一样,这些游戏通过复杂的定义和挑战推动了人工智能的研究。在本论文中,我们希望将「Hanabi」游戏作为新的挑战,这一领域具有新颖的问题,这些问题源于纯粹合作的游戏玩法,和 2-5 个玩家环境中不完全信息的结合。

特别的是,我们认为 Hanabi 将试图理解其它智能体的意图推理推向了前台。我们相信开发能够使人工智能理解这种心理理论的技术不仅可以玩好这款游戏,还可以应用于更广泛的合作任务中——尤其是那些与人类合作的任务。为了便于未来研究,我们引入了开源的 Hanabi 学习环境,为研究人员提供实验框架,用于评估算法的进步,并评估当前最先进技术的性能。 

原文链接:http://www.marcgbellemare.info/blog/a-cooperative-benchmark-announcing-the-hanabi-learning-environment/

理论DeepMind谷歌大脑
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~