参与:李泽南、姜悦

DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?

2016 年 11 月,DeepMind 与著名游戏公司暴雪宣布将在即时战略游戏《星际争霸 2》上合作,这家隶属谷歌的公司将在游戏平台中进行人工智能研究。近两年来,DeepMind 的研究进度时有透露,但距离「人机对战」似乎还有很长一段距离。刚刚,DeepMind 宣布即将公布一个有关星际争霸 2 的「最新进展」,而且会以线上直播的形式展现在世人面前。

时间:北京时间周五凌晨 2 点

  • 直播链接(Twitch):https://www.twitch.tv/starcraft

  • 直播链接(Youtube):https://www.youtube.com/channel/UCP7jMXSY2xbc3KCAE0MHQ-A/featured

AlphaGo征服围棋之后,《星际争霸》一直被人工智能研究者视为下一个目标,因为它相比国际象棋与围棋更接近「复杂的现实世界」,DeepMind 科学家 Oriol Vinyals 曾表示:「能玩《星际争霸》的人工智能必须能够有效利用记忆,能够进行长期战略规划,同时还得根据不断出现的新情况做出反应调整。以这种标准开发的机器学习系统,最终完全可以应用到现实世界中的任务中去」。

DeepMind 的星际 2 人工智能看来即将第一次正式亮相了,公司 CEO 丹尼斯·哈萨比斯在社交网络上表示:你不会想错过这次直播的!

DeepMind 和暴雪上一次发布星际争霸 2 消息的时候,Oriol Vinyals 在 2018 年暴雪嘉年华上分享了人工智能模型在星际争霸上的惊喜突破。人工智能模型当时已能执行基本的宏观战略,还能防御一些像 Tower Rush 这样的激进战术。

距离上次消息才过去几个月,DeepMind 已经准备好发布更多他们的研究消息。星际争霸系列游戏已经成为人工智能社区的一个巨大挑战,因为在解决像规划、处理不确定性和空间推理等问题时,它们是进行研究最好环境。

1 月 24 号下午 7 点(欧洲中部时间),可以登陆 StarCraft's Twitch channel 和 DeepMind's Youtube channel 来获取更多进展信息。不要错过!

星际争霸 2:最复杂的 RTS 游戏

星际争霸和星际争霸 2 是人类游戏史上最困难、最成功的两款游戏,玩家们在其中彼此竞赛已超过 20 年。最初的游戏也已为人工智能机器学习研究者所用,他们参加每年一次的 AIIDE 机器人竞赛。星际争霸长盛不衰的部分原因在于其丰富的多层次游戏机制,对于人工智能研究来说,这简直是一个再理想不过的环境。

例如,虽然游戏的目标是击败对手,但玩家也必须顾及并平衡子目标的数量,比如收集资源(水晶和气矿)或建造房屋(提高人口限制)。此外,一场比赛的时间通常为几分钟到一小时不等,这意味着游戏中提早执行的操作也许会很长时间不见成效。最后,由于战争迷雾的存在,地图对于玩家只有部分显示,这意味着智能体必须结合记忆与规划才能成功。

星际争霸还有其他吸引研究者的方面,比如每天在线竞争的大量狂热玩家。这保证了有大量的游戏记录数据可以学习,以及大量可与智能体竞争的优秀人类对手。

甚至星际争霸的操作空间也是一个挑战,可从超过 300 种操作中做选择,相比之下 Atari 游戏只有 10 种操作选择(例如,上下左右等)。在此之上,星际争霸中的操作是层级的,能够进行调整、增强,有很多游戏单位需要点击屏幕控制。即使一个 84x84 的小屏幕,大概也存在 1 亿种可能的操作。

DeepMind 和暴雪也欢迎更多的科研人员加入挑战这一「最困难游戏」的行列。2017 年,两家公司共同发布了基于星际争霸 2 的人工智能研究环境 SC2LE,它允许研究者在 Linux 系统中接入游戏 API,开展自己的人工智能研究。

人工智能的 APM 被限制了吗?

OpenAI 打 Dota 2 时一样,人工智能在玩电脑游戏时因为「反应」更快,所以 DeepMind 在和人类比赛时也需要进行一些限制。

目前最为接近的例子是 Dota 2 人工智能 OpenAI Five,这个人工智能被设定为平均每分钟进行 150-170 次操作(APM=150-170,因为每四帧观察一次,所以理论峰值为 450)。熟练的玩家有可能掌握完美捕捉画面的时机,但这对机器来说轻而易举。OpenAI Five 的平均反应时间为 80 毫秒,这个速度比人类更快。

在 2017 年 DeepMind 提交的论文《StarCraft II: A New Challenge for Reinforcement Learning》中,研究人员曾表示:「人类玩家通常每分钟可以进行 30-300 次操作(即 APM30-300),随着玩家水平的提高,这个数字也会有所提升。职业玩家在极限操作时 APM 有可能超过 500。在 DeepMind 的所有强化学习实验中,人工智能每 8 个游戏帧行动一次,这相当于 APM180。这是一个和中等玩家水平相当的选择。」

APM180 是「中等水平」……星际争霸真是一个神仙打架的游戏。

人工智能能够打败什么水平的人类玩家?

DeepMind 宣布进军星际争霸 2 以来,这家公司一直较为低调,人们一度认为这一非对称信息游戏无法被人工智能在短时间内掌握。在两年多的时间里,DeepMind 也仅仅提交了两篇论文。最近的一篇论文,2018 年 6 月的《Relational Deep Reinforcement Learning》曾提到研究人员正在使用深度强化学习方法解决问题。

论文中写道:DeepMind 的深度强化学习方法可以通过结构化感知和关系推理提高常规方法的效率、泛化能力和可解释性。在 6 个小游戏中的 4 个实现了超越人类大师级玩家水平,DeepMind 是故意没有展现出自己的全部实力吗?

在 2018 年 11 月举行的暴雪嘉年华(Blizzcon)活动中,暴雪曾介绍道:「DeepMind 一直在努力训练人工智能模型,以更好理解星际争霸 2 规则。一旦模型掌握游戏的基本规则,它就可以开始进行一些有趣的行为,比如带农民 Rush 开局。在与「疯狂」难度标准的星际争霸 2 AI 模型对阵的时候,获胜概率可以达到 50%。」

「在人工智能学习人类玩家的游戏录像之后,它就能开始使用常规战术了,同时也可以防御对手诸如 Tower Rush 这样的激进战术。」

DeepMind 以外,其他研究机构也在进行自己的努力。去年 9 月份,腾讯 AI Lab 等机构利用深度强化学习开发出了能在《星际争霸 II》全场游戏中打败「疯狂」内置 AI 的智能体(深海暗礁地图,虫族 1 对 1),「疯狂」AI 在视野和采集资源速度上具有不平衡的优势,能力相当于暴雪战网(Battle.net)天梯排名系统中前 30% - 50% 的人类玩家。

目前星际争霸 2 世界排名前 10 的职业玩家。AlphaGo 的第一次亮相是对阵樊麾二段,OpenAI 的第一次则是在 Dota 2 中单挑战胜了职业玩家 Dendi,如果 DeepMind人工智能要对抗人类,会选谁做对手?

目前,OpenAI 人工智能已能在 Dota 2 上和人类顶尖职业玩家勉强过招了,腾讯 AI Lab 的王者荣耀 AI「觉悟」也在 KPL 决赛上击败了顶尖战队,DeepMind 又会给我们带来哪些惊喜?几十个小时之后答案就会揭晓。

在此,先奶一口DeepMind

参考内容:

  • https://news.blizzard.com/en-gb/starcraft2/22640608/recap-starcraft-ii-what-s-next-2019-panel

  • https://arxiv.org/abs/1708.04782

  • https://arxiv.org/pdf/1806.01830.pdf

  • https://news.blizzard.com/en-gb/starcraft2/22871520/deepmind-starcraft-ii-demonstration

入门深度强化学习星际争霸DeepMind
3
相关数据
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

https://www.openai.com/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
推荐文章
暂无评论
暂无评论~