Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型

世界模型,即通过预测未来的范式对数字世界和物理世界进行理解,是通往实现通用人工智能(AGI)的关键路径之一。

视频生成领域,OpenAI 发布的 Sora 引起了广泛关注,Sora 具有极强的仿真能力,可以展现出对物理世界的初步理解;视频生成领军企业 Runway 在技术博客中表示,文生视频系统 Gen-2 的下一代产品将会通过通用世界模型来实现。在自动驾驶领域,Tesla 和 Wayve 均表示在利用世界模型的预测未来特性构建其端到端自动驾驶系统。在更广泛的通用机器人智能领域,LeCun 多次在演讲中表示对世界模型潜力的极大关注,并预言世界模型将会取代自回归模型成为新一代智能系统的基础。

为了对世界模型的最新进展进行全面探索和总结,近日,北京极佳视界科技有限公司(极佳科技)的研究人员联合国内外多家单位(中国科学院自动化研究所、新加坡国立大学、中国科学院计算技术研究所、上海人工智能实验室、迈驰智行、西北工业大学、清华大学等)推出了全球首篇通用世界模型综述。

该综述通过 260 余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论。另外,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。

极佳科技的研究人员表示,会在 GitHub 项目中持续更新关于通用世界模型的更多研究进展,希望该综述能够成为通用世界模型的研究参考。

图片

  • 论文地址:https://arxiv.org/abs/2405.03520
  • GitHub项目地址:https://github.com/GigaAI-research/General-World-Models-Survey

世界模型通过对未来的预测来增进对世界的理解。如下图所示,世界模型的预测能力对于视频生成、自动驾驶以及智能体的发展至关重要,这三者代表了世界模型研究的主流应用方向。

首先,视频生成世界模型是指利用世界模型技术来生成和编辑视频,以便理解和模拟真实世界的情景。通过这种方式,能够更好地了解和表达复杂的视觉信息,为艺术创作提供了全新的可能性。

其次,自动驾驶世界模型是指利用视频生成和预测技术来创造和理解驾驶场景,并从这些场景中学习驾驶行为和策略,这对于实现端到端的自动驾驶系统具有重要意义。

最后,智能体世界模型是指利用视频生成和预测技术在动态环境中建立智能体与环境的交互,与自动驾驶模型不同,智能体世界模型构建的是适用于各种环境和情境的智能策略网络;这些智能体可能是虚拟的,例如在游戏中控制角色的行为,也可能是实体的,例如控制机器人在物理世界中执行任务;通过这种方式,智能体世界模型为实现智能互动和智能控制提供了新的解决方案。

图片

视频生成领域

如下图所示,首先,该综述按照时间顺序讨论介绍了近年来提出的代表性视频生成模型。在 2021 年之前,以 GAN 为基础的模型(IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等)主导了视频生成领域。之后,基于自回归建模(GODIVA、VideoGPT 等)、扩散建模(Imagen Video、SVD、CogVideo 等)和掩码建模(MAGVIT、VideoPoet、WorldDreamer 等)的模型开始出现,并取得了更好的生成效果。

图片

以 GAN 为基础的模型(下图 (a))将生成器和判别器网络进行对抗训练,使得生成的视频更加真实。扩散建模(下图 (b))则将视频信号编码到隐空间,引入一个降噪过程来生成视频,通过在隐空间多步降噪从纯噪声中解码恢复出高质量视频。基于自回归建模的模型(下图 (c))使用预测下一个视觉 Token 的方法,逐步生成下一个时间对应的视频内容,这种方法能够捕捉时间序列中的依赖关系,生成连贯和真实的视频。而掩码建模(下图 (d))则通过在训练过程中对部分视觉信息进行遮挡,并逐步恢复出掩码区域,最终得到无掩码的清晰视频。综上所述,近年来视频生成模型呈现出了多样化和创新化的发展趋势,不同的模型方法相继涌现并取得了令人瞩目的生成效果。

图片

Sora 是最近备受瞩目的视频生成模型,其技术方案依赖于上图 (c) 的扩散模型。由于 Sora 是闭源的,本综述的相关分析主要基于其技术报告(https://openai.com/index/video-generation-models-as-world-simulators)。如下图所示,Sora 主要包括三个部分:

  1. 压缩模型:该模型将原始视频在时间和空间上进行压缩,转换成隐空间的特征进行表示,并且有一个解码器可以将隐空间特征映射回原始视频。
  2. 基于 Transformer 的扩散模型:与 DiT(Scalable Diffusion Models with Transformers)方法类似,该模型在隐空间中对含有噪声的视觉特征不断进行降噪处理。
  3. 语言模型:使用大语言模型将用户的输入编码为详细的 promts,以此控制视频的生成。

图片

自动驾驶领域

除了视频生成方向,世界模型在自动驾驶场景下也存在巨大的应用价值,近些年来被研究者们不断探索。下图展示了自 2023 年以来,世界模型在自动驾驶场景场景下的研究发展,其中包括三种类型:端到端自动驾驶、驾驶场景 2D 模拟器和驾驶场景 3D 模拟器。

图片

在自动驾驶领域,世界模型可以用来构建环境的动态表示。对未来的准确预测对于确保在各种工况下进行安全驾驶至关重要。因此,端到端自动驾驶方法(Iso-Dream、MILE、SEM2 等)通过最小化搜索空间并在 CARLA v1 模拟器上集成视觉动态的明确解耦来应对这些挑战。TrafficBots 则是另一种基于世界模型的端到端驾驶方法,其侧重于预测给定情景中各个智能体的行为。通过考虑每个智能体的目的地,TrafficBots 利用条件变分自动编码器赋予各个智能体独特的特征,从 BEV(鸟瞰图)视角实现动作预测。

上述方法在 CARLA v1 上进行了实验,但面临 CARLA v2 中数据低效性的挑战。为了解决 CARLA v2 场景的复杂性。Think2Drive 提出一种基于模型的强化学习方法用于自动驾驶,鼓励规划器在学习的潜在空间中进行 “思考”。该方法通过利用低维状态空间和张量的并行计算显著提高了训练效率。

高质量的数据是训练深度学习模型的基石。虽然互联网文本和图像数据成本较低且易于获取,但在自动驾驶领域获取数据存在着诸多挑战,原因包括传感器复杂性和隐私问题等因素。特别是在获取直接影响实际驾驶安全的长尾目标时更是如此。世界模型对于理解和模拟复杂的物理世界至关重要。

一些最近的研究已经将扩散模型引入到自动驾驶领域,以构建世界模型作为神经模拟器,生成所需的自主 2D 驾驶视频。此外,一些方法利用世界模型生成未来场景的 3D 占用网格或 LiDAR 点云。

下表提供了基于世界模型的驾驶场景数据生成方法的总结。

图片

智能体、机器人领域

除了自动驾驶领域,世界模型在智能体、机器人领域也有广泛的应用。给定一个目标,智能体需要规划一系列动作完成指定任务。已经有许多成功的算法用于在已知环境中进行动态规划,然而在大多数情况下,环境是复杂和随机的,难以通过人类经验明确建模。

因此,该领域的核心主题是智能体如何在未知和复杂的环境中学习规划。解决这个问题的一种方法是让智能体从与环境的交互中积累经验,并直接从中学习行为,而不对环境的状态变化建模(即无模型强化学习)。虽然这种解决方案简单灵活,但学习过程依赖于与环境的许多交互,成本非常高昂。

World Models 是第一篇在强化学习领域引入世界模型概念的研究,其从智能体的经验中对世界的知识进行建模,并获得预测未来的能力。这项工作表明,即使是一个简单的循环神经网络模型也能够捕捉环境的动态信息,并支持智能体在该模型中学习和演化策略。这种学习范式被称为 “在想象中学习”。借助世界模型,试验和失败的成本可以大大降低。

下图展示了智能体和机器人领域的世界模型发展视概览,不同颜色显示了不同结构的世界模型。其中 RSSM(PlatNet、DreamerV1、DreamerV2、DreamerV3 等)占据主导地位,而 Transformer(TransDreamer、IRIS、Genie 等)、JEPA(JEPA、MC-JEPA、A-JEPA、V-JEPA 等)和扩散模型(RoboDreamer、UniSim)从 2022 年开始越来越受到关注。

图片

Recurrent State Space Model (RSSM) 是 Dreamer 系列的核心结构,旨在促进潜空间中的预测。它从像素观察中学习环境的动态模型,并通过在编码的潜在空间中规划选择动作。通过将潜在状态分解为随机和确定性部分,该模型考虑了环境的确定性和随机因素。由于在机器人的连续控制任务中表现出色,许多后续的工作都在其基础上进行了拓展。

Joint-Embedding Predictive Architecture (JEPA) 是由 LeCun 等人提出的,它学习从输入数据到预测输出的映射关系。与传统的生成模型不同,该模型不直接生成像素级输出,而是在更高级别的表示空间中进行预测,从而使模型能够专注于学习更语义化的特征。JEPA 的另一个核心思想是通过自监督学习来训练网络,以便它可以预测输入数据中缺失或隐藏的部分。通过自监督学习,模型可以在大量未标记的数据上进行预训练,然后在下游任务上进行微调,从而提高其在各种视觉和通用任务上的性能。

Transformer 源自自然语言处理任务。它基于注意力机制的原理,使模型能够同时关注输入数据的不同部分。在许多需要长期依赖和基于记忆推理的领域中,Transformer 已被证明比循环神经网络更有效,因此近年来在强化学习领域受到越来越多的关注。自 2022 年以来,已有多项工作尝试基于 Transformer 及其变种构建世界模型,在某些复杂的记忆交互任务上实现了比 RSSM 模型更好的性能。其中,Google 的 Genie 引起了相当大的关注。这项工作基于 ST-Transformer 构建了一个生成交互环境,通过对大量未标记的互联网视频数据进行自监督学习进行训练。Genie 展示了一种可定制化操控的世界模型新范式,为未来世界模型的发展提供了巨大潜力。

近来,也有方法基于扩散模型进行智能体世界模型的构建,RoboDreamer 学习构成式世界模型以增强机器人的想象力。它将视频生成过程进行分解,并利用自然语言的固有组合性。通过这种方式,它可以合成未见过的对象和动作组合的视频。RoboDreamer 将语言指令分解为一组基本元素,然后作为一组模型生成视频的不同条件。这种方法不仅展示了强大的零样本泛化能力,还在多模态指令视频生成和机器人操作任务部署上取得了不俗的结果。UniSim 则是一个用于真实物理世界交互的生成式模拟器。UniSim 包含一个统一的生成框架,将动作作为输入,集成了多样的数据集。通过这种方法,UniSim 能够模拟高级指令和低级控制的视觉结果,可以进行可控游戏内容的创建以及在模拟环境中训练具身智能对象。

挑战及未来发展方向

尽管近年来在通用世界模型以及特定领域应用如自动驾驶和机器人的研究急剧增加,但仍有许多挑战和机遇等待进一步探索。本综述也深入探讨了当前通用世界模型面临的复杂挑战,同时设想了其未来发展的潜在方向。

挑战一:因果和反事实推理

作为一种预测模型,世界建模的本质在于其推理未来的能力。该模型应能够推断以前从未遇到过的决策的结果,而不仅仅是在已知数据分布内进行预测。正如下图所示,我们期望世界模型具有反事实推理的能力,通过理性的想象推断结果。这种能力在人类中本能存在,但对于当前的 AI 系统来说仍然是一个具有挑战性的任务。

例如,想象一辆面临突发交通事故的自动驾驶车辆或者一个处于新环境的机器人。具备反事实推理能力的世界模型可以模拟它们可能采取的不同行动,预测结果,并选择最安全的响应。这将明显改善自主智能体系统的决策能力,帮助它们处理新的和复杂的情景。

图片

挑战二:模拟物理定律。

虽然 Sora 的视频生成能力令人印象深刻,但有许多研究者认为将其视为世界模型为时尚早,因为它并不完全遵守物理定律。现实世界要求严格遵守物理定律,如重力、光相互作用和流体动力学。虽然 Sora 在建模运动方面有所改进,包括行人和刚体运动,但它仍然在准确模拟流体和复杂的物理现象方面表现不佳。仅通过视频 - 文本对训练是不足以理解这些复杂性的,与物理渲染器产生的数据联合训练可能是一条潜在的解决路径。

挑战三:泛化能力。

泛化能力是评估世界模型性能的关键之一,其强调的不仅是数据内插,更重要的是数据外推。例如,在自动驾驶中,真实的交通事故或异常的驾驶行为是罕见的事件。那么,学习得到的世界模型能否想象这些罕见的驾驶事件呢?这要求模型不仅要超越简单地记忆训练数据,而且要发展出对驾驶原理的深刻理解。通过从已知数据进行外推,并模拟各种潜在情况,世界模型可以更好地在现实世界中进行安全的导航。

挑战四:计算效率。

视频生成的效率是限制其大规模应用的关键因素。为了保持视频生成的一致性,通常采用的时序一致性模块会导致生成时间大大增加。根据互联网上的新闻和分析,Sora 可能需要大约一个小时来生成一分钟的视频。尽管在图像生成领域出现了一系列基于蒸馏的方法,显著加速了生成速度,但在视频生成领域的相关研究仍然非常有限。

挑战五:性能评估。

当前的世界模型的研究热点主要集中在生成式模型上,评估指标主要是生成质量,如 FID 和 FVD 等。此外,还有一些工作提出了更全面的评估基准,如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而,单独的度量数字不能全面反映世界模型的预测合理性。结合人类反馈可以使得评估变得更全面,但如何提升其效率和一致性是一个值得深入研究的方向。

关于极佳

本综述的牵头单位北京极佳视界科技有限公司是国内通用视觉智能方向最领先的团队之一,核心团队发表视觉和人工智能方向顶级论文 200 余篇,多次获得全球最具影响力的人工智能比赛冠军,发表多个具有世界影响力的人工智能技术成果,并拥有丰富的人工智能大规模产业落地经验。

极佳科技目前已经打造百亿参数级别通用视觉生成大模型,其研发的世界模型 DriveDreamer、WorldDreamer、HumanDreamer系列,已经在自动驾驶数据生成、具身智能、通用视频生成等应用场景实现落地和产生规模化营收,同时相关技术和成果得到国家专项课题认可和重点支持。
理论极佳科技
1
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

相关分析技术

相关分析就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。在一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

策略网络技术

在强化学习中,策略网络指一组相对稳定的关系,这些关系具有非等级和相互依赖的性质,将各个行为者(actor)联系起来。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

连续控制技术

连续控制代指需要进行连续控制的任务,经典例子包括推杆摆动,3D人形运动等等。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~