2018 AIIDE星际争霸AI全球挑战赛结果出炉!中科院季军,三星拔得头筹

2018 年 11 月 13-17 日,AAAI 人工智能与交互式数字娱乐大会 (AIIDE) 上,第八届 AIIDE StarCraft AI 挑战赛顺利结束。今年共有 27 支队伍参加了比赛,包括三星、Facebook、斯坦福大学、中科院自动化所、Bilibili 以及 Locutus 等。三星 SAIDA 获得冠军,Facebook 团队开发的 CherryPi 获得亚军,中科院自动化所智能系统与工程研究中心的张俊格研究团队获得季军。

星际争霸游戏是一款经典的即时战略(RTS)游戏,自 1998 年发行以来在全球范围内备受欢迎。星际争霸 AI 竞赛自 2010 年出现后,每年都会举行,且参与者越来越多。参赛者提交星际争霸 AI bot,这些人工智能体将在《星际争霸:母巢之战》零售版中互相格杀。受早期 RTS 游戏竞赛(如 Open RTS (ORTS) 竞赛)的启发,星际争霸 AI 竞赛逐渐成为展示当前最优 RTS 游戏人工智能体的绝佳场地。开发者使用 BWAPI 控制星际争霸 AI 智能体。BWAPI 于 2009 年首次提出,是为 StarCraft AI 竞赛的服务的开发接口,也就是用代码玩 StarCraft,它提供了一个 C++的编程接口,可自由编程生成 dll 格式的 AI 文件。

SAIDA、CherryPi 比赛视频演示

AIIDE StarCraft AI 挑战赛自 2010 年起已连续举办九届,目前三星、Facebook、斯坦福大学、中科院自动化所等知名机构与高校都在研究星际争霸 AI,以提升 AI 智能体的通用能力。

2018 AIIDE StarCraft AI 全球挑战赛共吸引了全球 27 支队伍参加竞赛,其中确定来自中国的队伍包括:

  • BlueBlueSky,团队成员来自地平线侯鹏飞、中科院自动化所张恂、薄紫彤、兴军亮等;

  • CES,来自中科院自动化所智能系统与工程研究中心的张俊格研究团队;

  • KillAll,来自中国国家重点实验室的 Zhentao Tang 独自参赛;

  • LastOrder,来自 Bilibili 的 Sijia Xu

2018 AIIDE StarCraft AI 挑战赛参赛队伍概览。图源:https://www.cs.mun.ca/~dchurchill/starcraftaicomp/2018/

不久之前,2018 AIIDE StarCraft AI 全球挑战赛结果最终出炉,三星 SAIDA 获得冠军,Facebook 团队开发的 CherryPi 获得亚军,中科院自动化所智能系统与工程研究中心的张俊格研究团队获得季军。

2018 AIIDE StarCraft AI 挑战赛结果,图源:https://www.cs.mun.ca/~dchurchill/starcraftaicomp/2018/

SAIDA 战队

今年获胜的是三星 SAIDA 团队,它在 10 张地图的 2590 场比赛中获胜了 2484 场,总胜率达到了 95.91%。SAIDA 团队负责人 Chang-hyeon Bae 说:「我们的 AI bot 获胜的秘诀在于,它会积极响应对手的策略,并在适当的时间给对手强硬的打击,这一过程需要非常精细的单位控制。我们同样会在 110000 组专业竞赛团队的重播数据上应用机器学习技术,以进一步提高 AI bot 的竞争力。」

SAIDA 在所有比赛中都使用人族(terran),它在初期倾向于使用保守策略,而在比赛中期后就尝试使用更激进的策略并组织大规模攻击。SAIDA 认为人族可以应对大多数对手的策略,并且缺点也少。

SAIDA 团队主要使用有限状态机控制所有作战单位和建筑,每一个单位和建筑在每一种情况下都有特定的状态。且他们还会使用一些搜索算法搜索敌方基地。

此外,SAIDA 团队不仅能通过卷积神经网络抽取电子竞技视频中的策略信息,并将这些信息解码为战斗决策,同时还会利用多智能体强化学习学习如何微观操作。不过这些技术暂时还没有加入到比赛系统中。

Facebook 团队开发的 CherryPi

CherryPi 由 Facebook AI Research 开发,它使用虫族(Zerg)进行战斗,在每次对决(matchup)中使用 8-13 个策略。CherryPi 使用的 AI 技术包括:

  • 搜索:使用区域级路径搜索对地图障碍派送侦查单位,使用 threat-aware 路径搜索指引单位退出战场。

  • 离线机器学习:基于论文《An LSTM model for high level strategy selection》中的人类数据的卷积网络模型。

  • 离线强化学习

  • 在线学习

  • 地图分析:使用 BWEM 库(即 Brood War Easy Map)。

  • 分析之前在离线训练阶段的竞赛。

CherryPi 具备高效的宏观管理能力、策略选择能力、军队定位能力、基本单位控制能力。在这次竞赛中取得了亚军的好成绩。

中科院自动化所开发的 CSE

中科院自动化所张俊格团队本次设计开发的「CSE」bot 在 2591 场比赛中以 87.11% 的胜率荣获中国参赛队伍第一名、全球第三名的优异成绩。张俊格团队在具有自主进化的多智能体控制、基于敌对方意图分析的态势认知、博弈对抗机理分析、强化学习等领域开展了一系列研究与应用工作,同时还公开了星际争霸基准数据集以进一步促进星际 AI 的发展。此外,张俊格团队去年开发的 CPAC bot 获得了该竞赛的国际第四名。

CSE 使用神族(Protoss),采用的是规则和学习联合驱动的方式,比如,在 build order queue 为空的时候,CSE 使用深度学习来预测待训练单位。

总之,AIIDE StarCraft AI 挑战赛的比赛结果、获胜团队的技术介绍如同前文所展示的。至于在这些 bot 在比赛视频中展示出的效果我们就不一一截取 GIF 展示了,毕竟作为一家年轻的公司,小编们会玩 Dota2、撸啊撸、王者荣耀以及守望屁股、吃鸡,就是没人会玩星际争霸~~~

参考地址:https://www.cs.mun.ca/~dchurchill/starcraftaicomp/2018/

产业竞赛深度强化学习星际争霸
1
相关数据
地平线机构

地平线作为嵌入式人工智能全球领导者,致力于提供高性能、低功耗、低成本、完整开放的嵌入式人工智能解决方案。面向智能驾驶、智能城市和智能商业等应用场景,为多种终端设备装上人工智能“大脑”,让它们具有从感知、交互、理解到决策的智能,让人们的生活更安全、更便捷、更美好。

http://www.horizon.ai
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

有限状态机技术

有限状态机(英语:finite-state machine,缩写:FSM)又称有限状态自动机,简称状态机,是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~