Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

商汤《星际争霸2》AI智能体公开首秀,AI大装置成就职业级决策水平

6月12日,前《星际争霸2》中国冠军,现商汤科技智慧决策与游戏事业部技术研发负责人周航现身斗鱼直播间,向公众揭开了目前已开源项目中实力最强的《星际争霸2》 AI模型DI-star的神秘面纱,并首次公开展示了DI-star与人类顶尖职业玩家在游戏中的对决成果。在演示的多场对局中,DI-star均表现出了人类最高段位宗师分段的竞技水平,并与全球一线职业选手水平相当,为探索决策AI技术在游戏领域的应用提出了全新路径。

DI-star仅通过5周的训练时间便达到了媲美职业玩家的竞技水平,如此高效的训练成果正是源自商汤在决策AI领域领先的技术实力以及SenseCore商汤AI大装置提供的强大算力支持。目前DI-star及其背后的决策智能平台OpenDILab已在GitHub开源,让每位有兴趣的AI研究员或玩家都能够深入其中,探索和实践决策AI技术的开发与应用,一同构建决策AI创新生态。

精准决策、快速操控,DI-star高效制胜《星际争霸2》

人机对战的历史由来已久,从国际象棋到围棋人工智能已逐渐具备了超越人类顶尖选手的决策能力。今天,《星际争霸2》这款业界公认的具有超高游戏难度和公平竞技性的即时战略游戏,成为诸多AI争相挑战的新“珠峰”。《星际争霸2》的空间复杂度高达10的1685次方,远远超出围棋10的170次方的复杂度。在近乎天文数字一般的庞大状态空间中进行复杂的策略博弈,使得《星际争霸2》成为了检验AI决策能力的绝佳舞台。

凭借长期的原创技术研究,商汤在决策智能领域积累了深厚技术实力。本次直播中,周航通过多个对战演示片段,充分展现了DI-star灵活多变的决策能力,能够屡次在复杂对局中快速找到最优策略。

DI-star融合了监督学习强化学习等商汤多项前沿技术,为AI智能体赋予人类宗师分段水平的决策能力。通过监督学习,DI-star让AI反复观摩人类职业玩家对战的高质量录像学习人类的打法,快速掌握资源采集、单位生产,以及战斗过程中成百上千步的决策行为。在监督学习的基础上,DI-star通过强化学习让AI通过自我博弈的方式进行大量对局,持续提升全局的决策能力和整体的竞技水平。

商汤《星际争霸2》AI智能体首秀,AI大装置成就职业级决策水平

DI-star靠精细微操建立前期优势

商汤《星际争霸2》AI智能体首秀,AI大装置成就职业级决策水平

使用出女王前压这样的人类不常见战术出奇制胜

商汤AI大装置加持,5周成就人类宗师分段水平AI智能体

SenseCore商汤AI大装置为DI-star的模型建立、训练和验证提供了强大的算法和算力基础,帮助DI-star用更短的时间达成媲美甚至战胜人类专业高手的对战水平。依托SenseCore商汤AI大装置,DI-star仅用5周的时间,便完成了大约一亿局对战,最终成就了人类宗师分段的竞技水平。

作为商汤原创打造的人工智能基础设施,SenseCore商汤AI大装置在为DI-star提供关键算力支撑的同时,还提供了丰富的工具和技术组件,帮助DI-star在训练过程中进行快速试错,高效地实验各种全新想法。这使得DI-star在强化学习阶段可以用极短的时间快速尝试和验证不同决策行为产生的结果,驱动算法以惊人的速度进行迭代。

尽管AI已经在《星际争霸2》上取得了显著的成果,但是对于这款游戏的理解依然尚未超越人类,例如存在选用不同种族对战的成绩差异较大的问题,同时在寻找游戏最优策略方面仍有很大的提升空间。未来,商汤将依托SenseCore商汤AI大装置,持续深化决策AI技术的研发,不断提升算法的泛化性能,持续提升多智能体在复杂环境中的相互竞争和协调合作能力。

从AI智能体到内容生成,商汤“全栈”赋能游戏产业发展

在技术创新与市场需求的双向促进下,游戏产业正在快速步入AI时代。基于此,商汤在2021年成立了商汤智慧决策与游戏事业部,促进AI与游戏产业的融合创新与发展。商汤智慧决策与游戏事业部总经理兼高级研究总监刘宇表示,“伴随游戏规模越发庞大,游戏元素越发多样化,游戏开发商需要质量和效率兼具的创作方式。决策智能技术的快速发展,也使得玩家对AI在更多类型游戏中的竞技水平抱有了更高期待。商汤以全面的AI技术能力,围绕游戏研发、游戏运营、游戏玩法等多个层面,全面赋能游戏产业发展。”

商汤游戏内容智能生成解决方案可为开发者提供基于AI技术的人体动作捕捉以及场景建模,生成的素材可以无缝嵌入日常动画流程当中,效果自然逼真。商汤的游戏美术智能生成解决方案则可以通过AI技术智能生成各类2D或3D游戏角色以及手绘等多种场景风格,帮助开发者快速搭建不同游戏场景、人物造型。

商汤的智能运营服务还将赋能游戏社区运营的智能化发展,其创新打造的社区机器人和社区管理SaaS服务台,可以提供智能客服、跨群邀请、群任务与群积分成就管理、高价值社区信息挖掘、高价值社区成员挖掘等服务,增进玩家活跃度和忠诚度,提升用户粘性。

商汤《星际争霸2》AI智能体首秀,AI大装置成就职业级决策水平

商汤智能运营SaaS服务台

商汤游戏全域机器人可为MOBA、SLG、RTS、FPS、MMO、RAC等不同类型的游戏,带来拥有强大智能决策能力的游戏AI智能体。它不仅具备全面的多智能体协同作战能力,甚至还可以基于行为参数模拟玩家性格,让AI成为人类绝佳的队友或对手。

AI技术在游戏内容生成领域的深入应用,将帮助游戏开发商重塑游戏制作流程,显著提高游戏内容的创作效率。游戏AI决策智能的不断提升,也将显著提升游戏的竞技性和对战乐趣,甚至将有望重新定义游戏中玩家与AI的关系,带来人机共生的全新游戏体验。未来,商汤将以SenseCore商汤AI大装置为基石,通过行业领先的全栈式人工智能能力推动AI在游戏领域的多元化应用,携手行业伙伴,共同助力游戏产业的创新与发展。

产业强化学习人机共生商汤科技
相关数据
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机共生技术

人机共生是人类和电子计算机之间合作互动的一个预期发展。这将涉及人类和电子设备之间非常密切的耦合。主要目的是1)让计算机促进公式化思维,因为它们现在促进了公式化问题的解决;2)让人类和计算机能够合作做出决策和控制复杂的情况,而不依赖于预先确定的程序。在预期的共生伙伴关系中,人类将设定目标,制定假设,确定标准,并进行评估。计算机将会做一些常规的工作,为人类在技术和科学思考方面的见解和决策做好准备。初步分析表明,共生伙伴关系将比单独的人能更有效地进行智力活动。实现有效合作关系的先决条件包括计算机分时、内存组件、内存组织、编程语言以及输入和输出设备的发展。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

推荐文章
暂无评论
暂无评论~