李泽南 李亚洲作者

DeepMind AlphaStar星际争霸2首秀:Demo很强大,现场比赛竟然输了

两年前,DeepMind 曾宣布开始研究打即时战略游戏《星际争霸 2》的人工智能,今天,AlphaStar 终于首次亮相在世人眼前。在对阵人类职业玩家、前 WCS 亚军 MaNa 的一场比赛中,人工智能却被人类「狡诈」的战术迷惑,输给了对手。

在几场展示 AI 实力的 Replay 铺垫之后,AlphaStar 现场比赛却输了。面对刚刚从电脑前起身的 MaNa,DeepMind 的两位科学家 David Sliver 与 Oriol Vinyals 只能露出尴尬的微笑。

看来,人工智能在征服这个「最复杂游戏」的过程中还需要学会应对很多战术和突发情形。在全球首场星际争霸 2 的「人机大战」中,AI 和人类玩家都使用了神族。

人工智能表示:Pimba,所以我用神族(其实当然不是了,是因为神族的兵种最容易计算)。

挑战游戏 AI 的最高峰

2018 年,机器之心记录了 OpenAI 人工智能挑战 Dota 2 的全进程:从最初的 1 v 1 战胜 Dendi,到 5 v 5 团队赛中击败业余人类玩家,最后在 TI 8 中挑战职业玩家败北。

虽然,OpenAI 人工智能在 TI 8 现场的表现不尽人意,但我们可以看到社区在 AI+游戏领域不断取得进步。

除了 Dota2、王者荣耀这样的 Moba 类游戏,星际争霸因其丰富的多层次游戏机制,对于人工智能研究来说也是一个再理想不过的环境。过去一年,机器之心报道了众多机构在星际争霸、星际争霸 2 上的 AI 研究成果。而我们所熟知的 DeepMind,在围棋项目结束之后也成为了 AI+星际争霸研究的主力之一。

两日前,DeepMind 宣布会以线上直播的形式公布 AI+星际争霸 2 方面的最新进展,吸引了 AI 社区、游戏社区的极大关注。

孙一峰永远是我大哥。

小编作为 Dota2 鱼塘级玩家,今日为大家带来最新的报道:DeepMind 的 AlphaStar 很强,它在一个月前接连以 5:0 的比分战胜了 Liquid 战队的两名职业选手,但现场比赛却输了。

DeepMind 的其他人工智能一样,打星际争霸 2 的人工智能也需要一个自己的名字。在人机大战开场数小时前,DeepMind 创始人 Demis Hassabis‏就通过 Twitter 向我们揭晓了谜底,继 AlphaGo、AlphaGo Zero、AlphaFold 之后,新的智能体名为 AlphaStar。

在 AI 圈、游戏界关注之下,DeepMind 的星际争霸 2AI 首秀开始。此次 Demo 的主持人为美国电子竞技解说 Artosis。国内有旭东老仙,美国也有 Artosis。Artosis 的诅咒就被喻为欧美星际争霸圈内的最强毒奶。RotterdaM 是星际争霸 2 官方解说,前魔兽 3、星际 2 职业选手。

在开场前,DeepMind 联合研究负责人 Oriol Vinyals 对比了 Atari 游戏、围棋与星际争霸 2 三者之间的复杂度。

星际争霸 2 是人类游戏史上最困难、最成功的即时战略游戏,这一系列游戏的历史已经超过 20 年。星际争霸长盛不衰的部分原因在于其丰富的多层次游戏机制,对于人工智能研究来说,这是一个非常接近现实世界的虚拟环境。

星际争霸拥有平衡的游戏规则,以及诸多信息和需要控制的变量。例如,虽然游戏的目标是击败对手,但玩家也必须顾及并平衡子目标的数量,比如收集资源(水晶和气矿)或建造房屋(提高人口限制)。此外,一场比赛的时间通常为几分钟到一小时不等,这意味着游戏中提早执行的操作也许会很长时间不见成效。最后,由于战争迷雾的存在,地图对于玩家只有部分显示,这意味着智能体必须结合记忆与规划才能成功。

星际争霸还有其他吸引研究者的方面,比如每天在线竞争的大量狂热玩家。这保证了有大量的游戏记录数据可以学习,以及大量可与智能体竞争的优秀人类对手。

甚至星际争霸的操作空间也是一个挑战,可从超过 300 种操作中做选择,相比之下 Atari 游戏只有 10 种操作选择(例如,上下左右等)。在此之上,星际争霸中的操作是层级的,能够进行调整、增强,有很多游戏单位需要点击屏幕控制。即使一个 84x84 分辨率的小屏幕,大概也存在 1 亿种可能的操作。

5:0 击败 LiquidTLO?演呢?

AlphaStar 对决的第一个人类对手,是液体战队的星际争霸 2 职业玩家 LiquidTLO。他是一名来自德国的虫族玩家,活跃于 2013-2015 年,本名 Dario Wünsch。TLO 职业生涯最好的成绩是 2013 年 6 月,在 HomeStory Cup VII 获得第三名,目前 TLO 的全球排名为 68 位。

TLO 对于能够被邀请来到 DeepMind 成为首个接受 AI 挑战的职业选手感到有些惊喜:「当时 DeepMind 发了封电子邮件来邀请我,后来我发现自己就来伦敦了。」虽然在主玩虫族之前,TLO 还打过一阵 Random,但他已经 28 岁了,神族游戏水平存疑。他在前去 DeepMind 对战之前练习了百场比赛。

比赛期间,小编也逛了 scboy 的直播。黄旭东表示,LiquidTLO 都已经 28 了,找他来打,开玩笑吗?虽然 AI 限制了 APM,但是因为 AI 应该完全没有无效操作,180 的 APM 还是很高的。而相对于人类选手,有效操作 180 已经是顶级水平了。

Alphastar 对战 LiquidTLO 演示

开场之后,第一盘人类选手使徒双开对 AI 单矿 VR。第一波使徒骚扰 AlphaStar 防守中规中矩,可以说不亏不赚。之后反穿了两个使徒打到了 6 个农民拖后了开矿节奏。而后 AlphaStar 开门带运输机前压,点掉电池之后通过运输机操作秀了人类选手一脸,AI 不朽还在路上 TLO 就打出 GG。

此时的 AlphaStar 看起来表现不强,菜鸡互啄。开局没有去对手家里探路,也没有做纪律性的查看对手有没有野建筑之类的操作,让人难以明白 AI 是怎么判断对手的战术的。

第一场结束后放出的数据,TLO 559 的 APM。网友评论:脸滚键盘吗?

在展示的第三场比赛视频中,双方打出一个双矿对开的局面。AI 前期补了两矿农民才放下基地,但是人口还是领先,给到了人类选手一定的压力。尤其是在操作上,AI 操作猛如虎。但是从比赛看来它还是有非常大的局限性,对于一些情况完全不知道如何处理,而且并没有多线操作,而是所有兵力集中推进。大概唯一的多线就是在 AI 家里的运营一直非常稳健。视频中虽然 TLO 利用一些小多线和凤凰、立场打回了一些。尤其是在中期有一波 AI 领先 60 人口但是没有打过,人口差一度被打回 20 以内。但是由于 AI 平稳的运营,还是把优势掌握在手里,直到最后人类选手打出 GG。

最后,AlphaStar 以 5:0 的绝对优势击败了 TLO。旭东老仙与众多网友都表示 TLO 未能发挥出职业玩家该有的水平,请的演员吗?(不是小编说的)。

但是看了下面 AlphaStar 对战波兰选手 MaNa 的视频之后,之前看了 TLO 比赛喊着「收了钱、放水、假赛」的二五仔们又精神了。

5:0 击败 MANA,服了

在 LiquidTLO 之后,DeepMind 的 AlphaStar 对决的人类选手是同样来自液体战队的 MaNa。MaNa 本名 Grzegorz Komincz,来自波兰,曾在 2015 年的 WCS 闯进决赛,这是一个正经的神族选手。

MaNa「忠肝义胆」,可不会跟你演戏。

对战 MaNa 时,AlphaStar 视角的神经网络处理可视化。神经网络观察图像,输入内容会激活网络的不同节点,进而开始「考虑」应对的动作,例如点击和建造,并预测各种结果。AlphaStar 也会预测对手的发展情况,尽管有时因为战争迷雾的存在无法完全做到。

在第一场比赛中,AI 的第一个水晶很难受,影响了采气,但是 AlphaStar 主动放了一个战术:在 MaNa 基地附近放下了两个 BG,但是很快就被 MaNa 看到。之后,MaNa 放下电池后放心的派出先知去 AlphaStar 家里屠农,但是 AI 在顶着 MaNa 两个追猎的火力点掉了高地下方的石头之后,坚决的打出一波。虽然 MaNa 的不朽已经走出 VR,但是第一时间被点掉。拖农民对于 AI 的操作根本没有影响,先知回防也被立刻点掉,MaNa 打出 GG。

看了对战 MaNa 的视频,旭东老仙说,AlphaStar 凤凰的这个操作有些夸张,是人类玩家无法实现的。对战 MaNa 和 TLO 中间间隔了一周,看来已经学会堵口的建筑学了。

此外,AI 对于农民采矿的细节应该是也在不断调整。我们可以从视频中看出,同样的农民数量,采矿效率总是比人类选手高。

看到这里,我们可以发现 AlphaStar 此时的操作和运营真的无懈可击,它对攻击对象的选择也是很精确,没有浪费火力,也就是说战斗中几乎是 0 失误。

这样的电脑看来只能拼一枪战术了,操作肯定是拼不过了,看看能不能在兵者诡道方面占一些便宜。

第四场视频看到的就是 AI 用无解的操作非常赖皮的以劣势兵种强吃人类玩家兵力。虽然 AI 主力只有追猎者,但是被 MaNa 分割之后打出了三线拉扯,打出了罕见的追猎包不朽,一波瞬间 1600 的 APM 之后操作完胜,MaNa 主力死光无奈 GG。

最后,MaNa 0:5 同样败北。

现场对决 MaNa:出人意料的反转

AlphaStar 背后的故事。

在一段记录视频中,DeepMind 回顾了 AlphaStar 的超快进化历程:2018 年 12 月 10 日,AlphaStar 击败了 DeepMind 公司里的最强玩家 Dani Yogatama;到了 12 月 12 日,AlphaStar 已经可以 5:0 击败职业玩家 TLO 了(虽然 TLO 是虫族玩家,但解说们认为他在游戏中的表现大概能有 5000 分水平);又过了一个星期,12 月 19 日,AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。

为了让人感受充分训练后 AlphaStar 的强大,DeepMind 组织了一场现场对决。MaNa 在比赛前称,自己要来一场「复仇之战」。

出人意料的是,这一场比赛人类选手竟然获胜了。

这是 AlphaStar 首次星际争霸 2 的人机大战直播。通过这场比赛我们可以看到 AI 的一个缺陷:除了特定的分兵战术,并没有灵活的兵力分配概念。这让我们想起打星际 1 电脑的远古时代,开局派出一个农民去攻击电脑的基地,电脑就会派出所有农民去一直追杀你这个农民。这场 MaNa 也是利用的相似的办法,棱镜带着两不朽在 AI 的基地不停骚扰,AlphaStar 一旦回防立刻飞走,等 AI 兵力出门又立刻继续骚扰。

AlphaStar 是如何学会打星际争霸 2 的

TLO 和 MaNa 等专业星际争霸玩家在整场比赛中平均每分钟可发出数百个动作(APM)。这一数据远小于星际争霸的机器人(它们可以单独控制所有单位,达到数万 APM)。在对阵 TLO 和 MaNa 的比赛中,AlphaStar 的平均 APM 是 280,稍低于职业玩家,不过 AI 的操作都是有效操作。DeepMind 称,AlphaStar 的 APM 较低是因为 AI 使用人类玩家对战的 Replay 进行训练,从而模仿了人类的游戏方式。此外,AI 在观察图像和进行操作之间的延迟平均为 350 毫秒。

在比赛结束后不久,DeepMind 官方博客随即放出了整个 Demonstration 的视频与 AlphaStar 的技术解读。

据介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络在单元中使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

AlphaStar 也使用到了全新的多智能体学习算法。神经网络最初通过暴雪公开的匿名人类游戏视频以监督学习进行训练。这让 AlphaStar 能够通过模仿进行学习天梯玩家的基础微操与宏观操作策略。

AlphaStar 联盟。最初是通过人类玩家的游戏回放视频进行训练,然后与其他对手对抗训练。每次迭代就匹配新的对手,冻结原来的对手,匹配对手的概率和参数决定了每个智能体采用的的学习目标函数,保留多样性的同时增加难度。智能体的参数通过强化学习进行更新。最终的智能体采样自联盟的纳什分布(没有更换)。

比赛匹配分级评估:对不通训练时间的 AlphaStar 联盟水平的大约估计

随着自我博弈的进行,AlphaStar 逐渐开发出了越来越成熟的战术。DeepMind 表示,这一过程和人类玩家发现战术的过程类似:新的战术不断击败旧的战术。

为了训练 AlphaStar,DeepMind 使用了谷歌最先进的深度学习芯片 TPU v3 构建了一个高度可扩展的分布式训练配置,支持数千个对战训练并行运算。AlphaStar League 运行了 14 天,每个人工智能体使用 16 块 TPU。在训练时间上,每个智能体相当于训练了人类的 200 年游戏时间。最后成型的 AlphaStar 采用了各个智能体中获胜概率最高战术的组合,并可以在单个 GPU 的计算机上运行。

DeepMind 表示,对于这项工作的全面描述已经写成论文,目前正在接受同行评议期刊的审阅。又会是一篇 Nature 吗?

结语

看了前面回放的比赛视频,我们经历了从「很失望」、「AlphaStar 不行」,到「AI 的操作有点意思」,最后到「人类要完」、「打不过了」。但最终的现场决赛,人类玩家还是扳回一成。

此外,DeepMind 的 AlphaStar 也许并非最强的智能体。芬兰电竞战队 ENCE 也在两天发布通告:Artificial Overmind 挑战赛的获胜 AI 将可以挑战世界冠军 Serral,也许这会是一场值得期待的人机对决。

20 天后,人类和 AI 将会有怎样的对决?

参考链接:https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

产业DeepMind强化学习游戏AI人机大战星际争霸
11
相关数据
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

https://www.openai.com/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
您好,我是公众号长安代码发烧友(ID:changanIT)的编辑,我想要申请一下这篇文章的转载权限,会按照要求转载,麻烦您开白,谢谢🙏🏻