Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

这场比赛,让上百个AI智能体「卷起来了」

过去数年,随着神经网络、基于强化学习的自我博弈、多智能体学习和模仿学习等通用机器学习理论的突破,AI 智能体的决策能力实现了飞跃式发展。

可以看到,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,在学术研究和产业落地上,它们的关注焦点都在从智能感知向智能决策过渡。「决策 AI」成了领域内的必争之地。

今年 5 月,谷歌旗下的机构 DeepMind 发布 Gato,这款全新的 AI 智能体能够在「广泛的环境中」完成 604 项不同的任务。Gato 的诞生,再次刷新了单智能体的能力上限。当然,关于 AI 决策能力的探索不会仅限于此,如果让海量智能体在一个接近真实世界的开放决策环境中「狭路相逢」,它们会做出何种判断和选择,又会怎样分工合作、竞争呢?
 
近日,由参数科技发起,麻省理工学院、清华大学深圳国际研究生院,以及知名数据科学挑战平台 AIcrowd 联合主办的「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」落幕。在这场比赛中,我们发现了一些进行新探索的可能性。

图片

复杂环境中的多智能体博弈

近年来,多智能体环境已经成为深度强化学习的一个有效研究平台。目前,强化学习环境要么足够复杂,但限制条件太多,普适性不强;要么限制条件很少,但过于简单。这些问题限制了更高复杂度任务的创建,也很难激发出多智能体更高阶的决策能力。

2019 年,MIT 博士生 Joseph Suarez 在 OpenAI 实习期间开发了 Neural MMO,他借鉴大型多人在线游戏(MMO),模拟出一个庞大的生态系统,系统中包含数量不等的智能体,并让它们在持久、广阔的环境中竞争。行业人士普遍认为,「这个模拟相当有趣」。与过往着眼于技术水准的 AI 游戏对战环境不同,Neural MMO 涉及到了 AI 的长期判断和选择,更考验智能体的决策能力。
 
「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」使用的正是上述环境。主办方表示,选择 Neural MMO 主要基于两点:一是 Neural MMO 类似于开放世界生存游戏,本身有一个自运转系统,并且定义了采集、攻击、生存等基本机制,二是它支持海量 AI 共存、交互,并涌现策略。无论在学术界还是工业界,这种环境都不多见。

图片

Neural MMO环境

在这场比赛中,每局对战都包含 16 支队伍,每支队伍包含 8 个智能体,这些智能体小分队要在 128x128 的地图上进行自由对抗。根据主办方的设计,每个智能体小分队要达成觅食、探索、竞争、打怪四项成就。这意味着每个环境里有 128 个智能体同时决策,每支队伍里的 8 个智能体要为了不同的目标进行有效的合作分工。

图片

在这种情况下,每个智能体都要发挥自己的强项,必要时,为了团队能够获得「最后的胜利」,一部分智能体还要学会「主动送人头」。鉴于环境里有多个智能体在同时学习,智能体们不仅需要考虑自己期望得到何种奖励,还要考虑对手可能会采取什么策略。再加上每一局对战都要完成四项任务,层层设置之下,每个智能体面临的「抉择」都有更高的决策复杂度。

让海量智能体「卷」起来

对一场学术性质的比赛来说,除了找到好问题,还要有足够多的好选手。为此,主办方从赛事规则、工具、赛事支持等方面对 Neural MMO 挑战赛进行了全面优化。
 
在工具层面,「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」升级了提交系统,让第一次成功提交到返回结果的时间从原来的两个多小时减少到十分钟;此外,挑战赛还提供了全新的 StarterKit 和 Baseline 。在 StarterKit 中,参赛者只需要跑一遍代码,就可以完成第一个提交;在 Baseline 中,用户只需要训练两天,就可以完成 Stage 1 0.5 的胜率,运行训练四天,就可以获得 Stage 1 0.8 的胜率。

这些设计帮助参赛者在初始阶段迅速地熟悉规则,并以此节省大量时间。利用省下来的时间,参赛者们可以将思考重点放在定义智能体在 Neural MMO 环境中的决策方式上,比如进行奖励信号的设计等。

在赛制上,这场 Neural MMO 挑战赛采取了 PvE 与 PvP 结合的方式。在 PvE 阶段,每个 Stage 的内置 AI 难度会逐渐增加,参赛者由此感受到「梯度」。Stage 1 的难度是最低的,包含了一些基于简单规则编写的开源脚本。之后,Stage 2 的难度会变得更高,主办方基于经典的 PPO 算法对内置 AI 进行训练,并加入自我博弈(Self-Play)的训练机制。到了 Stage 3,智能体的综合能力进一步升级,选手们面对的已经是高度团结的竞争对手队伍。

在 PvE 阶段获,成就分达到 25 的队伍即可晋级;但在 PvP 阶段,难度上升,对战对象从内置 AI 变为其它参赛选手队伍。

让 8 个智能体组团完成任务,是合作博弈中的一个经典问题。如果说在 PvE 阶段的前两个 Stage,依靠单打独斗还能取得一些成绩,那么随着环境内置 AI 不断变强,再到对手从环境内置 AI 变为真实世界中的参赛团队,出战的智能体小分队也需要随之完成脱胎换骨般的进化,以此去理解怎样达成「团队最优决策」。

基于上述改进,不同水平的参赛者都能在这场赛事中找到适合自己的参赛目标。但同时,要想获得顶尖名次,智能体的综合决策能力要能经受住考验,这就要求选手在智能体的算法设计上具备更深刻的思考。

RL 算法选手,后来者居上

经过三个月的激烈角逐,两支来自业界的队伍脱颖而出,斩获了本届挑战赛的冠亚军。有趣的是,这两支队伍均采用强化学习算法,且都是在最后一个月才参赛。

冠军团队 LastOrder 提到,相较现有的其他多智能体环境,MMO 有更丰富的内容,例如生存、战斗、升级、团队 PK、随机地图等。与其他同类比赛不同的是,Neural MMO 挑战赛给参赛者的规则限制很少,这也为强化学习算法的应用提供了广阔的发挥空间。

NeuralNoob 是亚军获得者,他认为 Neural MMO 最明显的特点在于支持的海量智能体,本场比赛的设置为 128 个,但实际上可以增加到上千或者更多。「它是一个多任务的环境,每个智能体需要在必要的时候改变策略各司其职,具有更大的研究价值。」

在比赛过程中,LastOrder 设计了分布式强化学习训练框架 Newton,该框架具备高度灵活性及可扩展性。

图片

他们采用奖励设计等方法间接鼓励智能体做出合理的行为。在设计合理的奖励、神经网络结构等之后,他们观察到,深度强化学习训练后的智能体自行涌现了相互配合的行为。

「启发式算法的优点是思路更加简明,反馈更加直接。相比之下,强化学习需要更长的训练时间,以进行网络结构和参数的调整。」LastOrder 表示,「但强化学习算法所能达到的能力上限更高,更具探索的价值。」

NeuralNoob 同样采用强化学习算法,整体方案是 ppo 算法加自我博弈 ( self-play) 训练机制,所有智能体的训练都将 8 个智能体作为一个团队来训练,value 部分则会用到整个团队的共享表征,并按照 CTDE 的方式训练。

在 LastOrder 看来,MMO 这个平台还存在更多想象空间:例如它可以引入更多游戏要素,甚至可以变成一个开放的线上游戏,促进 Human in the loop 等领域的相关研究。对此,NeuralNoob 持相似看法,他认为可以有更多样的装备供智能体选择,并设置一个安全区,智能体到达安全区后不能发动攻击,同时可以和敌方智能体进行装备交易。

在 NeuralNoob 的设想里,甚至可以让智能体临时和敌方智能体进行合作,联手击杀一些强大的内置 AI,而同敌方智能体的合作将会让 MMO 更符合真实世界中合作与竞争共存的关系。

NeuralNoob 认为,这些是强化学习目前比较难胜任的地方,强大如 openai five,也是通过手写规则来实现出装路线,因为设计到装备选择的训练样本占比势必会很小,但依赖链却很长。

智能决策的「今天」和「未来」

更长远地看,Neural MMO 环境提供了一个广阔、高自由度的学术框架,可以推动一些种群层面的行为研究,比如如何高效组队,它甚至能衍生出社会学、经济学方面的概念研究,这些都是现阶段相关领域内瓶颈仍存的研究方向。正因此,「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」 在学术研究层面的意义也更加凸显。

任何关于决策智能的学术研究,人们都希望它能在真实的产业场景中发挥价值,包括但不限于商业游戏、量化交易。在现实生活中,决策的代价可能会非常大,这是因为,一方面,决策会直接导致结果,所以决策水平的质量高低,跟结果带来的收益直接相关;另一方面,决策所设定的环境相当复杂,而想要在真实世界中做预演,成本也会非常高。

在学界、业界对智能决策的探索过程中,Neural MMO 无疑有希望成为一个很好的试验载体。但现实中的智能决策往往更加复杂,有着更长的决策链条。如何进一步仿真模拟,让 Neural MMO 更大程度上地接近现实决策环境,这需要整个行业进行长期探索。

据了解,参数科技将依托 2022 NeurlPS 会议举办新一轮 NMMO 挑战赛。相较于「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」,新赛事增加了交易系统,丰富了装备品类、多职业分工以及毒圈机制,这使得它本就开放的环境变得更加贴合现实决策环境。同时,持续丰富的智能体之间合作及竞争的交互方式也大大增加了决策多样性、策略深度以及合作竞争的可能性。

在Neural NMMO系列挑战赛中,智能体与环境中的内置AI、敌方智能体,以及队友之间产生了大量交互,形成实时反馈,在动态的决策环境中达成最优决策,研究结果推动智能决策技术的发展。不远的将来,智能决策技术将成为数字化转型的加速器,推进能源、物流、工业等产业领域的研究落地和成果转化,为更多「不确定」的真实决策场景提供相对「确定」的答案。
入门超参数科技强化学习
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~