阿里人工智能新研究:在星际争霸中实现多兵种协同作战

在围棋和德州扑克后,RTS 游戏《星际争霸》已经成为人工智能研究者们征服的下一个目标。近日,来自阿里巴巴和伦敦大学学院(UCL)的研究者们发表了一项新研究,他们宣称人工智能控制的多个游戏单位在无监督学习的情况下已经可以发展出类似于人类玩家的战术。这种协同多个人工智能体新方法或许可以为研究者们带来启示,点此下载论


过去十年里,人工智能技术有了突飞猛进的发展。在有监督学习的情况下,机器已经可以展现达到甚至超越人类认知水平的图像识别语音识别能力。而在指定奖励目标后,单体人工智能(即智能体,agent)在Atari 游戏围棋德州扑克等项目上也打败了人类最强选手。


然而,人类智慧很大一部分在于社会和集体智慧,这也是实现通用人工智能的基础。人工智能的下一大挑战在于让不同智能体实现合作与竞争。对于研究者而言,经典即时战略游戏(RTS)《星际争霸》是进行此类实验的绝佳实验环境。在游戏中,每个玩家都需要控制不同的兵种,在不同的地形条件下与对手展开斗争。《星际争霸》系列游戏因为变化的多样性,对人工智能而言比围棋更加复杂,引起了 DeepMind 等公司和研究机构的兴趣。同时,这种大型多智能体系统的协同学习面临着计算性能的限制——参数空间会随着涉及智能体数量的增多而呈指数性增长,这意味着任何联合学习的方式都是无效的。


在本研究中,来自阿里巴巴和 UCL 的研究者们把多智能体星际争霸战斗任务设定为零和随机游戏。不同智能体通过新提出的双向协调网络(BiCNet)来相互交流,而学习是通过评估-决策方式来完成的。此外,研究者们还提出了共享参数与动态分组的概念,以解决扩展性的问题。


论文:Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games


1.jpg


摘要


现实世界的人工智能(AI)应用通常需要多个智能体协同工作。人工智能体之间有效的沟通和协调是迈向通用人工智能不可或缺的一步。在本论文中,我们以 RTS 游戏《星际争霸》为测试场景,设定任务为多个智能体互相协作试图击败敌人。为了保证沟通方式有效且可扩展,我们引入了多智能体双向协调网络(BiCNet),它具有向量化扩展评价器(actor-critic)形式。我们验证了 BiCNet 可以协调不同兵种,在不同的场景和两方智能体数量任意的情况下正常工作。我们的分析证明,在没有手动标记数据进行监督学习的情况下,BiCNet 可以学会多种有经验的人类玩家展示出的协调策略。而且,BiCNet 能够轻松适应异构智能体任务。在实验中,我们在不同的场景下用我们的新方法与不同的基准进行了对比;BiCNet 展现出了最先进的性能,它具有在现实世界大规模应用的潜在价值。


2.jpg

图 1:双向协调网络(BiCNet)示意


3.jpg

图 2:三个机枪兵(人工智能)对阵一个提速狗(小狗的升级,加移动速度和攻击速度)。如图(a)和(b)显示,在训练初期三个单位会发生碰撞,而在充分训练后(图 c、d),各智能体学会了协调一致。


4.jpg

图 3:三个机枪兵(人工智能)对阵一个狂热者(敌人)时学会了 Hit and Run 策略。


5.jpg

图 4:四个龙骑(人工智能)围杀一个雷兽(敌人),被攻击的龙骑学会了躲避。


6.jpg

图 5:三个机枪兵(人工智能)围杀一个小狗(敌人)。


在三个机枪兵对阵一个小狗的任务中(图 5),研究人员调整敌人的数量和小狗的血量与攻击力进行了多次测试。实验发现,BiCNet 只会在小狗血量高于 210,攻击力为 4 的情况下使用围杀策略,而小狗的默认血量为 35,攻击力为 5。


7.jpg

表 1:人工智能在不同血量和攻击力敌人情况下的胜率。训练步数 100k/200k/300k。


8.jpg

图 6:人工智能在十五个机枪兵对战的情况下学会了「集火」策略。


9.jpg

图 7:控制多兵种的人工智能协同完成任务:两架运输机、两个坦克对阵一个雷兽。


10.jpg

图 8:batch_size 和 skip_frames 在两个机枪兵对一个提速狗的任务中对胜率产生的影响。


11.jpg

图 9(左):在十个机枪兵对阵十三个小狗任务中,集火小组人数对于胜率的影响。图 10(右):不同人工智能方法的胜率曲线(10 枪兵 vs.13 小狗任务),BiCNet 的表现最好。


12.jpg

表 2:不同兵种对战的表现对比。其中 M=机枪兵,Z=小狗,W=幽灵战机。


BiCNet 是一种利用双向神经网络的多智能体强化学习框架。通过构建矢量化的评估-决策方式,其中每个维度对应一个智能体。智能体之间的协调通过内部双向通信完成。通过端到端学习,BiCNet 可以成功地学会多种有效协同策略。本研究证明了这一系统可以在即时战略游戏《星际争霸》中协调各兵种,产生多种有效战术。在实验中,研究者们发现指定奖励和学习策略存在很强的相关性。他们计划进一步研究这种关系,探索智能体在网络中是如何进行交流的,以及它们是否会生成一种特定的语言。此外,当双方都使用了深度多智能体模型进行游戏时,研究其中的纳什均衡问题将会非常有趣。 


原文链接:https://arxiv.org/abs/1703.10069

理论人工智能阿里巴巴论文理论文体娱乐星际争霸