Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南作者

「不务正业」的腾讯游戏,正在帮助科学家们「上天下地」

游戏也能成为生产力。

前段时间,科学界出了一个大新闻:DeepMind 通过 AI 算法控制了核聚变。这家公司和瑞士洛桑联邦理工使用强化学习控制核聚变反应堆内等离子体的研究宣告成功,研究登上了 2 月份的《自然》杂志。

DeepMind 曾因为在游戏上的研究而闻名。从训练 AlphaGo 算法在围棋上超越人类顶尖棋手、AlphaStar 挑战星际争霸 2,到这些算法的「进化版」实现蛋白质预测、核聚变等前沿突破,DeepMind 的技术在很多领域体现了想不到的价值。

DeepMind 这样,成就于游戏,又被应用到其他领域的例子。在国外并不少见,诸如英伟达、Epic 早期也专注服务游戏研发技术,如今已经成为汽车、建筑、影视等领域的核心硬件及软件工具。而最近,一些国内游戏厂商也正在做着一些「并不游戏」的事情。


在本周举行的游戏发布会上,腾讯首次曝光了七个游戏技术合作项目,或者说叫「游戏科技」 项目。这些项目中有下一代机器人的训练系统,超高清还原历史古迹的沉浸式互动环境,还有天文领域里程碑级的探索计划。更重要的是,它们背后的技术大部分都源自于游戏。

引入游戏 AI,做「改变规则的事」

深度学习是最近一波 AI 浪潮的关键词。自 2010 年以来,这类 AI 技术在计算机视觉语音识别自然语言处理等领域获得了重要进展。

基于深度强化学习,AlphaGo、AlphaStar 和 OpenAI Five 曾分别在围棋、星际争霸 2 和 Dota 2 上展示了顶尖玩家的水准。腾讯也在国民手游王者荣耀中上线了「绝悟」,让所有玩家都可以在游戏中进行挑战。虚拟世界中有超越人类水平的 AI 技术也可以帮助现实事物实现精准的协作控制,完成人们此前无法想象的事。

腾讯公布的 「游戏科技」 项目中,最引人关注的是「猎人星座计划」,它的全称是「全变源追踪猎人星座计划(CATCH)」。

传统的卫星天文观测非常依赖于地面中心的人工控制,每颗卫星可能需要配置一支专门团队,数十名科学家进行维护,由于物理距离和盲区等因素,操作延迟可能长达数分钟。面对引力波、伽马射线暴、快速射电暴等天文现象,传统操纵方式容易错失大量发现机会。

而 CATCH 计划则尝试解决这一难题。科学家们期望将上百颗卫星组成观测星座,每个卫星上都将载有中国自主研发的新一代 X 射线望远镜,并且让它们之间进行智能协同,从而实现全天候、高效率地对海量变源的无死角无间断监测,合力观测某些重要天文事件。

多卫星配合观测示意。

这是中国科学家提出的一项极富想象力的探索项目。该计划自 2019 年提出概念以来,一直受到国内外天文领域的关注。美国科学院院士、时域天文学领军人物 Shrinivas Kulkarni 曾评价道:「如果真的能实现,它将改变游戏规则。」

如何实现上百颗卫星的智能调度?这就需要用到多智能体强化学习算法了。

而当下,多智能体算法应用最多的应该就是游戏领域了。于是,腾讯游戏加入了 CATCH 项目,据了解,其 AI 多智能体算法已经经历了上亿局「人机模式」游戏对战游戏对战的训练。改进后既满足科研的精度要求、符合太空环境实时调度的算力要求,还能支持大规模算力的基础系统架构要求。

这并不是件简单的工作——CATCH 所使用的多智能体协同算法,需要使用大量天文数据进行训练。腾讯游戏的算法工程师已结合我国的天文爆发源数据搭建仿真爆发源模拟器,用以训练专属于太空观测环境的 AI 算法。

为了适应卫星上有限的计算资源,研究团队通过最新的模型压缩、部署优化方案,让算法可以有效平衡空间信号的感知、控制精度的要求,高效完成协同控制任务。

游戏 AI 中的多智能体强化学习方法可以帮助卫星群完成各类观测任务,让观测收益最大化。

最终发射上天的 CATCH 卫星在轨运行时,基于 AI 的技术将对深空中成千上万的爆发源数据进行实时计算分析,实现目标优化选择,向卫星发出指向调整、列队组合等观测指令,从而对观测目标进行全天候、全时间段的监测,还能根据探测结果持续进行算法优化。

有了游戏 AI 的加持,卫星可以实现高度的智能化,学会自己安排阵型,类似的技术也可以帮助机器人实现智能控制,从而适应复杂指令和环境的变化。

2021 年 3 月,腾讯 Robotics X 实验室发布了首个全自研四足机器人 Robotics X Max,它采用创新的足轮融合一体式设计,有腿又有轮,拥有较好的平衡能力,兼顾了移动速度和稳定性,达到了行业领先水平。 

Max 机器人有腿有轮,不仅拥有「崎岖路面走得稳,平坦路面跑得快」的特长,还首次实现了从四足到双足的站立移动,能完成后空翻、摔倒自恢复等动作,达到了行业领先水平,运行时速可以达到 25km/h。


在发布会上,腾讯游戏宣布发起游戏驱动机器人加速智能学习项目,利用 AI 和游戏技术帮助多模态四足机器人 Robotics X Max 不断成长。

腾讯天美 J3 工作室、天美技术中心、腾讯 Robotics X 实验室、腾讯 AI Lab 进行合作研发的智能体动作生成技术,源于游戏和 AI 的创新结合。基于该技术,Robotics X Max 的运动轨迹规划更加自然流畅,可以实现更细颗粒动作的智能生成、控制和决策,使动作表现体现高度智能,让机器人变得「更聪明」。



智能体生成技术是提升游戏 NPC 智能方向上的最新研究思路。在游戏开发过程中,人们可以使用自回归神经网络自动生成可交互人物动作。相较于传统游戏中人物依赖的预设动作,前者在不增加工作量的同时具有更好的表现力,动作灵活、自然,智能体也能够自主地适应各种复杂的指令和环境变化。

在此次宣布的合作项目中,这一技术被应用在机器人研发领域,它可以让虚拟环境中不管是游戏中的 NPC 还是机器人的表现都更加真实、拟人、行为复杂化,也可以帮它们适应复杂指令和环境的变化,让它们根据环境变化进行自主决策,动作也更灵活、更自然。


随着机器人越来越「聪明」,在不远的将来,我们也会在工程建设、医疗陪护,甚至日常生活中看到它们的身影。

用游戏引擎渲染真实世界

驱动机器人进步的,其实不止有智能体动作生成技术,搭建训练机器人的虚拟物理环境背后所依赖的技术——游戏引擎也是重要的动力之一。

游戏是模拟现实世界的最佳场所,也是最好的虚拟模拟和训练环境。

利用在游戏中被广泛使用、积累了丰富技术优势的高效物理模拟技术,在游戏中可以快速搭建不同拟真虚拟训练场景,参照现实中的运动数据,让机器狗 Robotics X Max 在复杂地形中完成行走、奔跑、相互协作等训练,可以大力缩减其在现实世界完成训练的过程与时间,实现高效训练的目标。

基于这一技术,腾讯目前已经实现了单只机器狗 CPU 优化后的 20 倍训练提速,同时训练 50 只机器狗时,训练时间可以提速超百倍。原本在现实世界需要几年的时间收集的数据量,可以在加速后的虚拟环境下缩短成几小时来生成。



而游戏引擎相关技术的应用还远不止于此,人们还在探索它在制造领域的应用。

民航飞行员训练的全动飞行模拟机(FFS)是用于帮助飞行员进行高仿真度训练的高精尖设备,该领域的核心技术在国内基本处于空白状态。腾讯计划利用物理真实光照和渲染等技术共同研发 FFS 视景软件系统关键技术,应用于飞行员的训练中。

在和南航集团旗下珠海翔翼达成的合作中,腾讯将利用在游戏研发中积累的 PCG 程序化内容生成技术「地球级别」地形渲染、PRT 昼夜系统、天气系统、物理仿真等能力,助力国产全动模拟机的研制。未来,该系统将充分运用到全动飞行模拟机训练中,进一步保障中国民航的运行安全。

全动飞行模拟机的视景软件系统概念示意。

游戏为科学赋予的能力,除了面向未来,也可以复现过去。游戏引擎对于虚拟场景构建、实时渲染的能力正被应用于文物保护工作。

此次发布会上的 「数字长城项目」,大量运用了能够实现高精度数字还原的照片扫描建模和游戏引擎渲染技术、能够提升数字资产制作效率的自动化生成技术,以及帮助用户摆脱终端算力限制的云游戏技术等。最终实现了超 10 亿面片的超写实数字场景,还在长城周围山体「种植」 了超过 20 万颗树,用户可以 「一镜到底」看到非常完整的自然环境。


这也是是全球首次通过云游戏在内的多种前沿技术,实现最大规模文化遗产毫米级精度、沉浸交互式的数字还原,并且在手机上点开小程序就能随时体验。

在这个过程中,腾讯游戏积累了一套全链条的数字文保技术解决方案,可以帮助更多文物、古迹进行数字化保存、复刻和再开发。

游戏技术,不止于娱乐

这一系列 「游戏科技」 项目的发布,让我们对游戏的未来充满了更多想象。

如今,开发游戏大作的成本已经上升到数亿美元,这种加码丝毫没有停下来的趋势。为了制作更好的游戏,各家公司构建的技术也越来越先进。纵观全行业,游戏自诞生以来就始终在与前沿科技存在各类互动。游戏推动了很多软硬件技术,自身也积累了一系列独特的技术能力。

如果我们去了解科技领域的历史,会发现游戏经常将科技推向新的高度,同时还因为面向数百万,甚至数以亿计的玩家而具有大规模应用的能力。GPU 就是这样一个例子:由于人们对于游戏画面的需求,专用的图形计算芯片得以兴起,算力暴增的芯片进而推动了深度学习时代。

曾被专家认为「永远不会到来」的光线追踪,是游戏领域里最新的图像渲染技术。它在 2018 年被英伟达搬上了 PC,去年又在智能手机上得以实现。

今天成为热门概念的新技术,不论元宇宙、云游戏还是 VR,都是首先在游戏业中产生的。随着技术成本的降低,游戏中的技术不断找到新应用场景,并正在传递到其他行业。可以预见,基于当前游戏技术的很多方法将会成为推动很多行业发展重要力量,成为数字社会新基建必不可少的一部分。

在虚拟与现实加速融合的趋势下,游戏技术已在数字文保、工业仿真、智慧城市、影视创作等越来越多的领域中发挥作用。在探索游戏技术的同时,游戏在不断创造新的可能。

你触动手机屏幕正在玩的游戏,正在催生下一个技术突破。
产业多智能体系统腾讯游戏
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

光线追踪技术

在计算机图形学中,光线跟踪是一种渲染技术,用于通过将光的路径跟踪为图像平面中的像素并模拟虚拟对象对光线的接收效果来生成图像。 该技术能够产生非常高的视觉真实感,通常高于典型扫描线渲染方法,但计算成本更高。

轨迹规划技术

轨迹规划方法分为两个方面:对于移动机器人偏向于意指移动的路径轨迹规划,如机器人是在有地图条件或是没有地图的条件下,移动机器人按什么样的路径轨迹来行走;对于工业机器人则意指两个方向,机械臂末端行走的曲线轨迹,或是操作臂在运动过程中的位移、速度和加速度的曲线轮廓。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中,DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa,引起了业内极大的关注。DeepMind 官方博客介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

暂无评论
暂无评论~