Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手

近日,腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI "绝悟" 在《星际争霸 2》中的最新研究进展,提出一种创新的训练方法显著提升了 AI 的局内策略应变能力,使其在考虑了 APM 公平的对战环境中,与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战,稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。


实时策略游戏(RTS)以其复杂的游戏环境更贴近现实世界,一直是 AI 研究的焦点和挑战所在。《星际争霸 2》作为其中极具代表性的游戏,因其对资源收集、战术规划和对手分析的高实时要求,已成为业内广泛用于训练和验证 AI 决策能力的理想平台。早在 2018 年,腾讯 AI Lab 研发的 AI 就已击败游戏内最高难度的 AI。

业界的联盟训练方法(League)虽然在星际 AI 强度上取得了突破性进展,但其中在 AI 局内策略应变能力以及训练效率存在不足。针对这些问题,腾讯 AI Lab 研发了新的算法进行改进,一方面提出了一种基于目标条件的强化学习(Goal-Conditioned RL)方法来训练利用者(Exploiter),使利用者在有限资源下能够高效探索多样策略并击败联盟中的其他智能体(Agent);另一方面通过引入对手建模机制,有效提升了智能体面对不同对手战术的应变能力。

图片

论文链接:https://openreview.net/pdf?id=tDAu3FPJn9

这项研究有助于推进 AI 智能化,增强 AI 应对复杂问题的泛化能力。在从 MOBA 到足球、RTS,再到 3D 开放世界游戏(如 Minecraft)等多样化游戏环境,“绝悟” 持续展现了其决策能力的提升。展望未来,决策智能 AI 将能更好地适应人类的真实需求,解决现实世界的复杂问题。

基于目标条件的强化学习提升利用者训练效果

利用者(Exploiter)是联盟训练中的重要角色,用于发现联盟中其他智能体的弱点,以丰富其他智能体陪练的对手池策略,为提升智能体策略应变能力提供基础环境。

在经典的星际 AI 联盟训练框架中,利用者并没有具体的目标策略指导,而是通过不断的随机探索来识别主智能体(Main Agent)和整个联盟的弱点。然而,考虑到《星际争霸 2》策略空间的庞大和复杂性,这种方法可能导致资源浪费和训练低效。

为了在有限的计算资源下提升利用者的学习效果,本研究提出了一种新颖的基于目标条件的强化学习训练方法。该方法让利用者能够自动挑选有 “潜力” 的宏观策略,并在相应宏观策略条件下进行训练,发现联盟其他智能体的弱点。

图片

图 1: 基于 goal-conditioned rl 的 exploiter 训练示意图

如图 1 所示,新方法通过评估主智能体在不同宏观策略条件下的胜率和执行偏差,来指导利用者的策略选择。从主智能体的高胜率宏观策略中采样的利用者被称为利用型利用者(Exploitative Exploiter),它的特点在于参数会重置为当前主智能体的参数,利用主智能体在该宏观策略下的高胜率能力,通过强化学习进一步提高微操技能,以击败其他智能体。同时,为了提升联盟中能够执行的宏观策略多样性,研究团队引入了探索型利用者(Explorative Exploiter)。探索型利用者专注于学习主智能体在执行上存在大偏差的宏观策略,以充分挖掘这类宏观策略的价值。在训练过程中,新方法除了将探索型利用者的参数重置为监督学习模型的参数外,还引入了课程学习机制和目标策略引导损失函数,以帮助其有效学习主智能体难以掌握的宏观策略。

基于对手建模提升 AI 局内策略应变能力

局内策略应变能力在《星际争霸 2》中至关重要,同时也是 AI 研究的一大挑战。这一能力指的是 AI 根据对手的实时策略做出合理的自身策略调整。其难点在于 AI 需要在不完全的信息环境中快速准确地解读和预测对手的策略,这不仅需要对复杂场景信息做高度抽象,还对预测能力有很高的要求。

本研究基于对手建模的理念,增加了一个辅助任务网络,专门用于估计对手的策略,并将这些信息的隐空间表达应用于主网络的策略调整学习。

图片

图 2: 对手建模方法示意图

具体的对手建模方法如图 2 所示,由于游戏存在 “战争迷雾” 机制,整体的网络结构建模按照 VAE 的架构设计。输入为当前观测到的对手信息,利用 LSTM 处理时序信息,预测关键的对手策略内容,例如不同兵种和建筑的数量,以及不同科技的升级情况。下面公式中 yt 表示 t 时刻对手的策略,Ot 表示 t 时刻观测到的对手信息,例如观测到的对手不同兵种和建筑数量,自身的视野信息等。整个网络参数基于人类数据进行训练优化。

图片

为了进一步提升效果,文章还提出了一种基于对手策略估计输出计算的 “侦探” reward,鼓励 AI 通过有效的侦探,更全面地掌握对手策略的信息。这一设计能降低对手策略估计输出的交叉熵,从而提高 AI 预估的正确性。

实验结果

为了验证新训练算法 ROA-Star 的策略应变能力,研究团队邀请了国内 3 位顶尖的神族职业选手对神族 AI 进行全面测试。与过往研究中通常只进行少量对局的做法不同,本次测试中 AI 与每位职业选手进行了多达 20 局的对战,以观察局数增加对胜率波动的影响。结果显示,AI 在所有测试中均能保持 50% 及以上的胜率,表明 AI 具备稳定的策略适应性。同时,AI 的瞬间 APM 被限制低于 800,平均 APM 低于 250,且职业选手有充分的休息时间,确保了对战的公平性。图 3 展示了 AI 的平均胜率随着对局数目的变化情况。

图片

图 3: 与 3 位顶尖神族职业选手测试过程中 AI 的平均胜率随着对局数目的变化

此外,研究团队采用相同的硬件资源,基于经典的联盟基线算法以及自研的新算法分别训练了 10 天的时间。通过将两个实验中所有智能体对战 100 局,并根据对战胜率统计了的 Elo 曲线,如图 4 所示。Elo 曲线清晰地显示了 ROA-Star 算法的有效性,主智能体的强度提升速度明显更快。同时,新提出的利用型利用者和探索型利用者的强度也能持续跟上主智能体,为主智能体提供了丰富的匹配其强度的对手池,有利于提升其策略的鲁棒性。

图片

图 4: 基线算法和自研算法训练过程中不同类型 agent 的 Elo 分变化

为进一步探索对手建模对于 AI 策略鲁棒性和局内应变能力的影响,研究团队还进行了消融实验。实验对基线算法和增加对手建模特性的新算法分别训练了 5 天,随后将训练得到的主智能体分别与 4 个具有不同宏观策略的 AI 进行了 100 局对战。如图 5 和表 1 所示,增加对手建模特性的新算法,能够根据对手的不同策略调整自身策略,显著提升了相应的胜率。

图片

图 5: 基线算法和增加对手建模特性算法在应对不同策略时采用的策略统计图

图片

表 1: 基线算法和增加对手建模特性算法对战不同对手宏观策略时的胜率

总结来说,决策智能 AI 正在朝着管理更多智能体、应对更复杂环境、增强协作能力的方向发展。本研究创新性地改进了星际 AI 研究方法 ,有效提升了 AI 的策略应变能力和鲁棒性。这不仅在学术侧为 AI 复杂决策提供了新的视角,也展示了决策智能 AI 未来在游戏、自动化、智慧城市管理以及复杂系统模拟等更广泛领域的应用潜力。
工程NeurIPS 2023 Spotlight腾讯 AI Lab
相关数据
交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~