启元世界获2018 NeurIPS多智能体竞赛Learning组冠军

近日,国际人工智能顶级大会 NeurIPS 2018 顺利落幕。八千多位来自全世界的人工智能研究人员齐聚加拿大蒙特利尔,讨论分享过去一年全世界在人工智能的各个领域的最新进展,该会议举办了一系列竞赛来鼓励学术界和工业界一起解决最有挑战性的人工智能难题。作为人工智能领域历史最悠久的学术会议之一,会议成果被视作人工智能领域的研究「风向标」。

其中,由谷歌大脑、Facebook、牛津大学及在游戏 AI 界久负盛名的纽约大学等机构联合举办多智能体竞赛-炸弹人团队赛(The NeurIPS 2018 Pommerman Competition)尤其引人瞩目。来自中国启元世界的彭鹏博士、中科院计算所助理研究员庞亮博士和北师大的袁钰峰组成的赛队,与美国、欧洲、日本、中国的 24 支一流队伍进行了激烈角逐,最终基于启元决策智能平台训练的 Navocado 双智能体能力稳定提升,夺得了 Learning 组冠军,展现了来自中国的决策智能团队具备的世界级技术实力。

启元世界是一家 2017 年成立的以认知决策智能技术为核心的公司,由前阿里、Netflix、IBM 的科学家和高管发起,并拥有伯克利、CMU 等知名机构的特聘顾问。团队核心能力以深度学习强化学习、超大规模并行计算为基础,拥有互联网、游戏等众多领域的成功经验。

决策智能目前是一个世界级的技术难题,决策过程也是人脑中最复杂的一种功能。由于在游戏、交通、电力等领域具备极大的应用前景,决策智能近年也成为全球人工智能研究的热点,DeepMind、Facebook、Open AI、微软亚马逊等科技巨头都成立了实验室进行相关研究。相较于单智能体,多智能体博弈的难度更是指数级增加。此次 NeurIPS 多智能体竞赛是 NeurIPS 会议上首次开设多智能体竞赛,将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人这款游戏中,鼓励全世界优秀的研发人员一起参加解决技术挑战。

此次 NeurIPS 多智能体竞赛采用激烈双淘汰机制 (Double Elimination),25 支参赛队分别提供 2 个智能体参加 2v2 对抗赛。参赛队伍的每个智能体初始都被困在一个封闭的区间中,智能体只有炸开附近的木箱才能进去其他区域。在几乎所有障碍物都被清理干净后,智能体进入到对抗阶段,所有智能体都可以自由地在全局活动,这个阶段智能体的主要目标就是炸掉对手。

图 1:多智能体竞赛-炸弹人团队赛

竞赛过程中需要智能体完成:1)清除障碍物,2)躲避自己的炸弹火焰,3)收集装备,4)躲避自己和其他人的炸弹火焰,5)放炸弹杀死对手,6) 避免放炸弹杀死队友。整个过程,对智能体有效甄别和提取有效信息,同时对未知信息进行推理和假设,以及多智能体协作都提出了很高的技术要求。

每个赛队线下有 2 个月的时间进行模型训练。最终基于启元决策智能平台训练的 Navocado 战胜了来自加拿大的 Skynet,拿下 Learning 组冠军。Skynet 的团队来自加拿大近百人规模的科技公司 Borealis.ai。从对战过程来看,启元的 Navocado 智能体的主动进攻能力明显强于对手。从 Skynet 在官网公开的实现方案来看,Skynet 模型在决策过程中加入了很多人工干预(比如限制炸弹人不能往火焰里走),这和 Navocado 模型在整个训练和决策过程中不加人工干预、自主学会各项技能的方式也有较大的差距。

图 2:Navocado 智能体持续训练过程中的效果提升曲线

启元从 2017 年起打造的决策智能平台,在这次赛事夺冠的智能体训练中起到了关键作用。强化学习作为决策智能的核心技术,也是极具挑战的一种机器学习方法。由于强化学习涉及到的链路很长,而强化学习算法本身对超参十分敏感,学术界中各人不同的实现或配置都很容易导致出现训练结果不可复现的现象。强化学习技术在可复现性、可复用性和鲁棒性方面存在着挑战。

借助平台化的力量,启元决策智能平台运用强化学习解决复杂决策问题,证明了强化学习的可行性。启元决策智能平台搭建了支持多智能体博弈的基础架构,能够通过竞技的方式实现多智能体持续学习的能力。平台还支持包括自动化资源调度和自动调参的元学习,使得模型训练的更加高效。

启元世界彭鹏博士介绍,「启元团队对强化学习这个领域都很有 Passion。这次我们在 NeurIPS 多智能体竞赛夺冠的智能体,在每个阶段的训练过程没有人工干预,学习曲线非常漂亮,进一步验证了这套体系的有效性和鲁棒性,验证了强化学习技术的价值。」

从平台架构设计到底层实现上,启元都做了很多细致的工作,力求在包括环境模拟、模型预估和训练等各个决策智能相关的环节都做到完美。启元赛队基于决策智能平台分阶段设计了奖励机制以及调整超参。在使用启元决策智能平台的过程中,赛队可以快速地调度所需资源进行任务部署,配置对战所需的智能体,并且在训练过程实时观察不同模型的对战情况和胜率曲线,从而做出最快的调整。

图 3:启元决策智能平台架构

在此次 NeurIPS 多智能体竞赛中,启元决策智能平台提供了三大助力:

第一,支持智能体持续学习的能力。

持续学习的能力是智能体训练中关键的一环。在训练阶段,炸弹人竞赛中的智能体需要在学习新技能的过程中保留过去学会的技能,才能达到很高的水平。启元决策智能平台通过智能体群体匹配竞技的方式实现「自然选择」,从而达到持续学习的效果。在竞技过程中,强者留存,弱者被淘汰。在弱者被淘汰之后,空出来的位置被强者的克隆体代替,而强者的克隆体则根据新的超参设定持续进化。在固定计算资源预算的情况下,启元决策智能平台通过这套机制在探索新强者 (exploration) 和深挖旧强者(exploitation)之间平衡对计算资源的使用情况。

第二,支持复杂场景的多智能体联合训练。

在多智能体博弈问题中,不同智能体之间的相互克制较为常见,其收敛可能性极为复杂。在炸弹人竞赛中,不同队伍的智能体风格迥异,有的善攻,有的善守。基于「鲶鱼效应」的思想(指透过引入强者,激发弱者变强的效应),启元决策智能平台在训练初期引入基于规则的高阶对手,激发初期较弱的智能体在与强者的对决中学会各种基本技能,迅速提升变强;随着训练阶段的深入,启元决策智能平台同时训练多个智能体,使其在激烈的相互对抗中完善自我。

第三,支持基于私有云集群的大规模、高并发的模拟和大规模训练。

启元决策智能平台将架构图中所示的多个模块进行组件化,并封装到了容器中。通过云端自动化的方式管理数百 CPU 以及 GPU 资源并实现容器编排,降低了调度数十个炸弹人训练任务的成本。大规模、高并发的模拟计算以及大规模的训练同时在私有云集群中进行。另外,启元决策智能平台提供分布式存储方案,并配置成共享模型池,为炸弹人智能体模型群体的持久化和共享提供支持。

启元决策智能平台 v0.8 版本目前已用于游戏、网络智能及仿真等场景中。基于为客户提供的高附加值服务,启元世界在 2018 年商业化上小试牛刀,即已取得不错的营收。2019 年,启元世界计划发布第一版启元决策智能平台型产品,为更多行业客户、终端用户带去高体验的服务。

产业NIPS 2018决策智能启元世界创业公司
1
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~