DeepMind游戏AI又有新突破,与智能体、人类合作都不在话下

刚刚,DeepMind 发布博客,介绍了其在游戏智能体方面的新进展。该研究聚焦于第一人称 3D 视角多人游戏夺旗游戏,发现其新型智能体不仅可与其它智能体合作,还可与人类玩家合作,性能达到人类水平。

多人电子游戏中的策略掌控、战术理解和团队配合是 AI 研究的重要挑战。现在,通过强化学习的新发展,DeepMind 的智能体在雷神之锤 III 竞技场夺旗模式(Quake III Arena Capture the Flag)中的表现达到人类水平,该游戏包含复杂的多智能体环境,也是典型的第一人称 3D 视角多人游戏。这些智能体展示了和人工智能体以及人类玩家合作的能力(雷神之锤III是一款多人连线第一人称射击游戏(FPS))。


DeepMind 训练的四个智能体在程序生成的室内和室外夺旗模式(CTF)级别中一起战斗。

地球上居住了数十亿人,每个人都有自己的个人目标和动作,但是他们仍然能够通过团队、组织和团体合作展示惊人的集体智慧。多智能体学习设定指:很多单个智能体必须独立行动,但是也要学习和其他智能体互动、合作。这是一个非常难的问题,因为共适应智能体会使得这个世界不断变化。

为了解决这个问题,DeepMind 研究者探索了第一人称 3D 视角多人电子游戏。这些游戏代表了电子游戏最流行的类型,并因其沉浸式游戏体验和策略、战术、手眼协调、团队合作的挑战性吸引了数百万游戏玩家。DeepMind 智能体的挑战在于直接从原始像素进行学习,并生成动作。其复杂度使得第一人称视角多人游戏成为 AI 社区一个硕果累累的活跃研究领域。

DeepMind 研究者在本次研究中聚焦的游戏是《雷神之锤 III 竞技场》(研究者从美学角度对其进行了修改,但所有游戏机制都保持不变)。《雷神之锤 III 竞技场》为很多现代第一人称视角电子游戏奠定了基础,吸引了具备长期竞争力的电子竞技场景。DeepMind 研究者训练智能体单独学习和行动,但它们必须能够团队合作抵御其他智能体,不管是人工智能体还是人类玩家。

CTF 的规则很简单,但是动态很复杂。两队玩家在给定地图上竞争,目标是夺取对方战队的旗子,并保护自己的旗子不被夺走。为了获取战术优势,它们可以射击对方战队的成员,让它们返回它们的重生点(spawn point)。经过五分钟游戏后,夺取最多旗子的战队获胜。


夺旗游戏教程

从多智能体的角度来看,CTF 需要玩家既能与团队成员进行妥善合作,又要与对方战队竞争,同时还要对可能遇到的任何游戏风格变化保持稳健性。

为了使事情更加有趣,DeepMind 研究者考虑了一种 CTF 变体,其中每一场比赛的地图布局都会发生改变。因此,智能体必须学习到通用策略,而非记住地图布局。此外,为了展现公平的竞技环境,DeepMind 的学习智能体需要经历与人类玩家类似的 CTF 世界:观察像素图像流,并通过模拟游戏控制器做出行动。

夺旗游戏是在程序生成的环境中进行的,因此智能体必须泛化到没有见过的地图。

智能体必须从零开始学习如何在没有见过的环境中观察、行动、合作以及竞争,每场比赛都要从一个单一的强化信号开始:它们的团队是否取得胜利。这是一个具有挑战性的学习问题,其解决方案需基于强化学习的三个基本理念:

  • 我们不是单独训练一个智能体,而是训练一群智能体,并通过让这些智能体彼此成为队友或对手来展开游戏的方式学习。

  • 群体中的智能体都各自学习自己的内部奖励信号,这使得智能体能够生成自己的内部目标,例如夺取一面旗。双层(two-tier)优化过程直接优化智能体获胜的内部奖励,并在内部奖励上使用强化学习方法来学习智能体的策略。

  • 智能体在快速和慢速两个时间尺度上运行,这提高了它们使用记忆和生成一致动作序列的能力。

FTW(for the win)智能体架构示意图。该智能体结合了快速和慢速时间尺度上的循环神经网络,包括共享记忆模块,并学习从游戏点到内部奖励的转换。

由此产生的智能体被称之为 FTW 智能体,学会了以非常高的标准玩 CTF。至关重要的是,学习到的智能体策略对地图的大小、队员的数量以及团队中的其他玩家都是稳健的。接下来,你可以探索一些户外程序环境中的游戏(其中 FTW 智能体相互对战),以及人类玩家和智能体在室内程序环境中一起玩的游戏。

交互式 CTF 游戏浏览器,具有程序生成的室内和户外环境中的游戏。户外地图上的游戏是 FTW 智能体之间的游戏,而室内地图上的游戏是混合了人类玩家和 FTW 智能体的游戏(见图标)。

DeepMind 举办了一场包括 40 名人类玩家的比赛,在比赛中人类和智能体随机配对——既有可能成为对手,也可能成为队友。

早期的一场 CTF 测试比赛,比赛双方为经过训练的智能体与人类玩家组成的队伍。

FTW 智能体变得比强基线方法更强大,并且超过了人类玩家的胜率。事实上,在一项对参与者的调查中,它们被认为比人类玩家更具合作性。

DeepMind 智能体在训练中的表现。新智能体 FTW 的 Elo 评级(对应赢率)超过人类玩家和 Self-play + RS、Self-play 的基线方法。

不仅仅是性能评估,理解这些智能体的行为和内部表征的复杂度也很重要。

为了理解智能体如何表征游戏状态,DeepMind 研究者观察智能体的神经网络在飞机上绘制出的激活模式。下图中的点表示游戏中的情形,邻近的点表示类似的激活模式。这些点根据不同的高级 CTF 游戏状态进行着色,这些状态包括:智能体在哪个房间?旗子的状态怎样?可以看到哪些队友和对手?DeepMind 研究者观察到同样颜色的簇表示该智能体以类似方式表示类似的高级游戏状态。

智能体如何表征游戏世界。概念上对应相同游戏状态的不同状态由智能体形成类似的表征。训练后的智能体甚至直接用一些人工神经元来编码特定情况。

智能体从未被告知游戏规则,然而却能学习基本的游戏概念并有效的发展出对夺旗游戏的直观认识。实际上,我们可以发现,某些特定的神经元可直接对最重要的游戏状态编码,例如当智能体的旗被夺走时某个神经元就被激活,或当智能体的队友持有旗时某个神经元就被激活。论文提供了进一步的分析,涉及智能体如何利用记忆和视觉注意力。

除了丰富的表征以外,智能体实际上如何行动?首先,需要注意的是智能体有非常快的反应时间和非常准确的命中率,这能解释它们的优越表现。然而,通过人工减少命中率和反应时间,我们可以发现这仅是它们成功的其中一个因素。

在训练之后人工减少智能体的命中率和反应时间的效果。即使在和人类相近的准确率和反应时间上,DeepMind 智能体的表现也优于人类。

通过无监督学习 DeepMind 建立了智能体和人类的原型行为,发现智能体实际上学习了类似人类的行为,例如跟随队友和在敌人的基地扎营。

已训练智能体展示的自动发现行为的三个示例。

这些行为在训练过程中通过强化学习和群体级演化而出现,随着智能体以更加互补的形式学习合作,诸如队友跟随这样的行为就变少了。


以上是 FTW 智能体群体的训练进展。左上角展示了 30 个智能体随训练和互相演化的 Elo 评级。右上角展示了这些演化事件的基因树。底部的图展示了知识、部分内部奖励和遍及智能体训练过程的行为概率的进展。


该研究社区近期在复杂游戏如星际争霸 II 和 Dota 2 上做了非常棒的工作,而这篇论文则聚焦于夺旗游戏,但其研究贡献是通用的,DeepMind 也很期待其他人在不同的复杂环境中以该技术为基础进行研究。未来,DeepMind 还希望进一步提升当前的强化学习和基于群体的训练方法。DeepMind 认为该研究强调了多智能体训练促进人工智能发展的潜力:利用多智能体训练提供的力量,并推动鲁棒智能体和人类的团队合作。

论文:Human-level performance in first-person multiplayer games with population-based deep reinforcement learning

下载地址:https://deepmind.com/documents/224/capture_the_flag.pdf

摘要:近期的强化学习在越来越复杂的单智能体环境和回合制双玩家游戏中取得了巨大的成功。然而,真实世界通常涉及多智能体设置,每个智能体需要独立地学习和执行动作来和其它智能体合作、竞争,而反映这种复杂程度的环境设置仍然是一大挑战。在这项研究中,我们首次展示了一个智能体可以在流行的第一人称 3D 多人电子游戏雷神之锤 III 竞技场夺旗模式(Quake III Arena Capture the Flag)中达到人类水平,其中仅使用了像素和游戏点作为输入。这些结果由一种新型的双层(two-tier)优化过程得到,其中一群独立的强化学习智能体在数千个并行竞赛中以团队合作的对抗形式在随机生成的环境中同时训练。群体中的每个智能体学习其自己的内部奖励信号作为评判输赢的稀疏延迟奖励的补充,并使用一种新型的时间分层表征来选择动作,该表征允许智能体在多种时间尺度上进行推理。在游戏进行期间,这些智能体展示了类似人类的行为,例如基于编码了高级游戏知识的已学习到的丰富表征而实现的导航、跟随和防御。在扩展的锦标赛形式的评估中,训练后的智能体在作为队友和对手的条件下都超越了人类玩家高手的胜率,并证实其远远超越了当前最佳的智能体。这些结果展示了人工智能体智能行为的飞跃,让我们更加接近实现人类级别智能的目标。

原文链接:https://deepmind.com/blog/capture-the-flag/

工程Deepmind深度强化学习模仿游戏
2
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

集体智慧技术
Collective intelligence

英文collective intelligence,也称集体智能、群智等称,此术语中intelligence即为智力、智能。(注意,有几个英文单词都有“群”的含义,目前大陆科技论文中,一般“群体智能”、“群智能”是指另外一个术语,其“群”字的英文原文是另一个词)

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

机器之心
机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

返回顶部