DeepMind让AI组队踢足球学会“合作”,并开源训练环境


大数据文摘编辑部出品

从足球竞技到战争,团队合作一直被认为是人类社会进步的基石。基于长远的共同目标,弱化甚至牺牲个人利益,促成了人类作为共同体的最大利益。

DeepMind也正尝试让人工智能学会这一点,并且选择了最有可能显示团队合作的考核方式——足球比赛。

今天凌晨,DeepMind发布了最新研究:证明了在足球环境下,一种基于分布式代理的连续控制培训框架,结合奖励渠道的自动优化,可以实现多智能体端到端的学习。

简单来说就是,DeepMind设置了环境,让多个AI一起踢足球赛。并且提前设置了规则,奖励整只“足球队”而不去鼓励某个"AI球员”的个人成绩,以促成整个球队的进步。用这种方式证明了,AI也是可以相互合作的!

先附上论文链接:https://arxiv.org/pdf/1902.07151.pdf

这篇论文被ICLP 2019收录。

通过竞争,实现紧急协调的多方协作

多智能体通过协作,完成团队最优目标并不是一个陌生的话题,去年,OpenAI就曾发布了由五个神经网络组成的DOTA团战AI团队——OpenAI Five ,并在5v5中击败了顶级人类玩家团队。比赛中,OpenAI Five也展示了,在胜利是以摧毁防御塔为前提的游戏中,牺牲“小兵”利益是可以被接受的,也就是说,AI是可以朝着长期目标进行优化的。

DeepMind的最新研究进一步专注于多智能体(multi-agent)这一领域。

他们组织了无数场2v2的AI足球比赛,并设定了规则,一旦有一方得分或者比赛超过45秒,比赛就结束。

DeepMind称,通过去中心化的、基于群体的训练可以使得代理人的行为不断发展:从随机,简单的追球,到最后的简单“合作”。他们的研究还强调了在连续控制的大规模多智能体训练中遇到的几个挑战。

值得一提的是,DeepMind通过设置自动优化的简单奖励,不鼓励个体,而去鼓励合作行为和团队整体的成绩,可以促成长期的团队行为。

在研究中通过引入一种“基于单独折扣因子来形成自动优化奖励的思想”,可以帮助他们的代理从一种短视的训练方式,过渡到一种长时间但更倾向于团队合作的训练模式当中。

DeepMind也进一步提出了一个以博弈论原理为基础的评估方案,可以在没有预定义的评估任务或人类基线的情况下评估代理的表现。

具体思想

将足球比赛看做一个多智能体强化学习(MARL)的过程,模拟一个可交互的环境,智能主体通过学习与环境互动,然后优化自己累计奖励。MARL的主题思想是协作或竞争,亦或两者皆有。选择什么样的行为,完全取决于“报酬奖励”的设置。MARL的目标是典型的马尔科夫完美均衡。大致意思是寻找随机博弈中达到均衡条件的混合策略集合。

具体意思是:博弈参与者的行动策略有马尔科夫特点,这意味着每个玩家的下一个动作是根据另一个玩家的最后一个动作来预测的,而不是根据先前的行动历史来预测的。马尔科夫完美均衡是:基于这些玩家的动作寻找动态均衡。

DeepMind在github上发布了他们使用的MuJoCo Soccer环境,这是一个竞争协作多智能体交互的开源研究平台,在机器学习社区已经得到了相当广泛的使用。

github地址:https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion/soccer

评估

相关比赛视频链接:https://youtu.be/wPtF_ygW2ss

为了有效地评估学习团队,DeepMind选择优化评估方法,所选团队都是以前由不同评估方法产生的10个团队,每个团队拥有250亿次的学习经验。他们在10个团队中收集了一百万种比赛情况。

上图显示了支持团队的3个智能体显示的成对预期目标差异。纳什均衡要求3个团队的权重都是非零的,这些团队协作展示了具有非传递性能的不同策略,这是评估方案中并不存在的:团队A在59.7%的比赛中赢得或打平团队B; 团队B在71.1%的比赛中赢得或打平团队C,团队C在65.3%的比赛中赢得或打平团队A.,他们展示了团队A,B和C之间的示例比赛的记录,可以定性地量化其策略的多样性。

在上图中,DeepMind展示了代理行为的典型轨迹:在5B步骤中,当代理更个性化地行动时,我们观察到无论blue1的位置如何,blue0总是试图自己运球。但在训练的后期,blue0则积极寻求团队合作,其行为呈现出由其队友驱动的特点,显示出高水平的协调精神。特别是在“8e10_left”这一场比赛中中,DeepMind称他们观察到了两次连续传球(blue0到blue1和后卫),这是在人类足球比赛中经常出现的2对1撞墙式配合。

未来研究

DeepMind此项研究意义重大,将2v2足球领域引入多智能体协作是以前没有过的研究,通过强化学习研究,利用竞争与合作来训练独立智能个体,展示了团队的协调行为。

这篇论文也证明了一种基于连续控制的分布式集群训练框架,可以结合奖励路径自动优化,因此,在这种环境下可以进行进行端到端的学习。

其引入了一种思想,将奖励方向从单策略行为转变为长期团队合作。引入了一种新的反事实政策评估来分析主题策略行为。评估强调了匹配结果中的非传递性和对稳健性的实际需求。

DeepMind开源的训练环境可以作为多智能体研究的平台,也可以根据需要扩展到更复杂的智能体行为研究,这为未来的研究打下坚实的基础。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业智能体开源DeepMind
1
相关数据
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

https://www.openai.com/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

纳什均衡技术

纳什平衡,又称为非合作赛局博弈,是在非合作博弈状况下的一个概念解,在博弈论中有重要地位,以约翰·纳什命名。 如果某情况下无一参与者可以通过独自行动而增加收益,则此策略组合被称为纳什均衡点。

随机博弈技术

随机博弈(stochastic game)在博弈论中是一类由一个或多个参与者所进行的、具有状态概率转移的动态博弈,由劳埃德·夏普利(Lloyd Shapley)于20世纪50年代初期提出

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~