Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型玩星际争霸能秀到什么程度?有意识,有预判,中科院和汪军团队发布

全球最重要的电竞赛事之一 DreamHack 刚刚落幕,来自世界各地的星际争霸 II 顶尖选手们展开了激烈的较量。在这场紧张精彩的赛事中,人族选手 CLEM 凭借出色的战术和操作,击败了世界冠军 Dark,赢得了其生涯首个线下大赛冠军。

图片

在 AI 领域,DeepMindAlphaStar 在 2019 年发表于《Nature》杂志,至今仍是 AI 研究的重要里程碑。AlphaStar 标志着 AI 技术在理解和处理复杂战略任务方面的巨大进步。然而,它在长期战略规划决策可解释性方面的局限性,也为研究者们提供了进一步的研究空间。

正是看到了这些挑战和机遇,中国科学院自动化研究所的群体决策智能实验室与伦敦大学学院 (UCL) 的汪军教授合作,将最近兴起的 LLM Agent 技术应用于星际争霸 II 的 AI 研究。

团队通过 LLM 理解与分析能力来提高星际 AI 的长期战略规划与可解释性决策。为了提升 LLM 的长期战略规划能力,团队设计了 TextStarCraft II 环境和 Chain of Summarization (CoS) 方法。CoS 方法能够有效的提升 LLM 对复杂环境的理解能力,极大提高了 LLM 的战略规划和宏观策略能力。

该方法创造性的解决了 LLM 在长期战略规划和实时战略决策方面存在的不足,让 LLM agent 能够在星际争霸 II 这样的复杂 RTS 游戏中做出长期策略规划和实时策略调整,最终进行合理且具有可解性的决策。

此外,团队邀请了 30 位大师和宗师级选手(包括了星际争霸 2 高校冠军 TATP,ReWhite,Joliwaloves 等知名选手)对 GPT 等 LLM 在星际争霸 II 的相关知识进行测评。最终 LLM agent 涌现出了超越 AlphaStar 的危险预测和兵种转型能力,以及前期快攻,前期侦察,加速研发科技等类人策略。

图片

文章链接:https://arxiv.org/abs/2312.11865
Github 仓库地址:https://github.com/histmeisah/Large-Language-Models-play-StarCraftII

TextStarCraft II:语言模型的新战场

面对星际争霸 II 这一巨大挑战,团队开发了 TextStarCraft II —— 一个全新的交互环境,它将星际争霸 II 转换成了一个文字游戏。这个环境基于 python-sc2 框架,将游戏中的状态信息和动作空间巧妙地映射到文本空间。在这里,宏观战略动作被转化为 LLM Agent 能够理解并执行的具体语义动作,大致包括生产单位,建造建筑和升级科技等。而微观操作则交由一套固定的规则式方法处理。

为了保证实验最终的结果是得益于 LLM agent 的分析和决策能力,研究团队将宏观动作和微观动作都设置为最简单的情况,以避免过强的规则方法带来的干扰。得益于 TextStarCraft II,LLM agent 能够在这个全新的战场上与游戏内置的 Build-in AI 展开较量。同时借助 python-sc2,该方法能够适配游戏的最新版本和地图,实现星际争霸 II AI 的灵活部署和高效应用。

Chain of Summarization:突破思维的界限

在星际争霸 II 的战场上,进行有效决策意味着需要及时处理大量复杂的信息,进行合理的战略分析与长期规划,最终制定宏观战略决策。这让团队面临着巨大的挑战。原有的 CoT (Chain of Thought) 及其改进方法,在 TextStarCraft II 环境中遭遇了三个主要问题:无法完全理解复杂的游戏信息难以分析战局的走向以及不足以提出有用的策略建议

针对这些挑战,团队创新性地提出了 「Chain of Summarization」方法。这一方法分为两大核心组成部分:单帧总结和多帧总结。单帧总结侧重于信息的压缩和提取,将观测到的游戏信息转化为简洁而富含语义的结构化数据,从而便于 LLM 的理解和分析。而多帧总结则是受到计算机硬件缓存机制和强化学习中的跳帧技术的启发,通过同时处理多步观测信息,弥补了快节奏的游戏和 LLM 推理速度之间的差异,提高了 LLM 在复杂环境中的理解和决策能力。

图片图1:Chain of Summarization 框架。

Complex Prompt System:构建智慧的桥梁

为了引导 LLM 进行高效的实时战略决策,团队精心设计了一套复杂的提示词系统 (prompt system)。这套系统包括四个主要部分:游戏状态总结,状态分析,策略建议,以及最终决策。

通过这种方式,模型能够全面理解游戏的当前局势,分析敌我双方的策略,并提出具有战略深度的建议,最终做出多步的合理决策。这不仅极大地提高了 LLM 的实时决策能力和长期规划能力,也极大提升了决策的可解释性。在后续的实验中,LLM agent 展示了前所未有的智能水平。

实验结果

Chain of Summarization 对交互速度的提升

在验证 Chain of Summarization 方法的有效性方面,团队选择了 GPT-3.5-turbo-16k 作为 LLM。实验对比了应用和未应用该方法的两种情况。结果表明:Chain of Summarization 不仅将 LLM 与游戏端的交互速度提升到了之前的十倍,还显著增强了模型对游戏情境的理解及决策能力。

图片

LLM agent 的性能展示

在这一系列实验中,团队选择了 GPT-3.5-turbo-16k 作为 LLM,并应用了 Chain of Summarization 方法。实验目的是测试 LLM Agent 扮演的神族玩家在与不同难度的虫族内置 AI 对抗中的表现。实验结果如下表所示:

图片

虽然 LLM agent 未能击败 Very Hard 的内置 AI,但是该方法超越了采用同样动作空间下的人类专家手动编写的策略,能够适应更加复杂多变的战场情况。

类人策略的发现

在实验过程中,一个令人兴奋的发现是 LLM Agent 展现出了许多与人类玩家类似的策略。这些策略包括前期侦察、前期快攻、加速升级科技和兵种转型等。更为重要的是,团队观察到,在 Chain of Summarization 方法的帮助下,LLM Agent 能够通过观察、思考和决策来有效进行实时战略规划,实现了既具有可解释性又符合长期规划的决策。

1. 狂热者快攻 2. 加速研发科技  3. 前期侦察  4. 加速生产工人 5. 防御与反击  6. 侦测单位侦察  
不同语言模型的表现

为了深入探究 LLM 在玩星际争霸 II 中表现优异的根本原因,团队提出了一个假设:这些 LLM 在其预训练阶段可能已经学习到了关于星际争霸 II 的相关知识。

为验证这一假设,团队设计了一系列问题,覆盖星际争霸 II 的基础知识、种族机制、典型战术、标准开局及战术应对等方面。这些问题的回答由人类专家(大师和宗师级选手)和 GPT-4 进行双盲评分,以此评估不同模型对星际争霸 II 知识的掌握程度。

实验结果如下图所示,其中揭示了一个有趣的现象:这些模型在不同程度上确实掌握了星际争霸 II 的相关知识,其中 GPT-4 在理解和回答这些问题上表现尤为出色。这一发现不仅支持了团队的假设,也为理解 LLM agent 在复杂现实场景中的应用提供了新的视角。

图片

策略的可解释性:LLM Agent 的战略智慧

在 AI 领域,即使是像 AlphaStar 这样能击败人类职业选手的强大 AI,有时也会做出一些难以理解或解释的决策。相比之下,尽管 LLM Agent 可能无法达到 AlphaStar 那样精细的微操作水平,但其强大的逻辑思考能力使其能够分析乃至预测游戏走向,并提供更合理的决策。这一能力主要体现在两个方面:

1. 预测危险与建立防御:如左图所示,AlphaStar(蓝色虫族)在对抗大师级玩家(红色神族)时,未能及时建造防空建筑来应对对手的骚扰,导致了重大损失。而在右图中,LLM Agent(绿色神族)通过预判对手(红色虫族)的攻势,及时建造了护盾电池,成功进行了防御。
图片
2. 战场形势下的兵种转型:在另一场比赛中,AlphaStar(蓝色虫族)面对大师级玩家(红色人族)的机械化部队时,并未做出有效的兵种转型,导致资源和人口的浪费(见左图)。相对而言,LLM Agent(红色神族)在面对敌方(蓝色虫族)时,不仅迅速生产出克制对手的部队,还进一步研发了相关科技,实现了合理的部队转型和策略拓展(见右图)。
图片

展望未来:LLM agent 的潜力与应用

展望未来,团队期待 TextStarCraft II 环境能够成为评估 LLM 及 LLM Agent 能力的重要标准。此外,团队认为未来将 LLM 与强化学习相结合,会产生更高级的策略和更佳的可解释性,能够解决星际争霸 II 以及更复杂的决策场景。这种方法不仅有潜力超越 AlphaStar,还可能解决更加复杂和多变的决策问题,从而为 AI 在现实社会中的应用开辟新的道路。
工程LLM AgentDreamHack
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中,DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa,引起了业内极大的关注。DeepMind 官方博客介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~