Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

清华、华为等提出iVideoGPT:专攻交互式世界模型

iVideoGPT,满足世界模型高交互性需求。

近年来,生成模型取得了显著进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的互联网规模数据上以无监督方式学习,用于构建预测世界模型。这些世界模型有望积累关于世界如何运作的常识性知识,从而能够基于智能体的行为预测潜在的未来结果。 

通过利用这些世界模型,采用基于强化学习的智能体可以在世界模型中进行想象、推理和规划,从而在现实世界中通过少量试验就能更安全、更有效地获得新技能。

尽管生成模型和世界模型有着基本的联系,但用于视频生成生成模型和用于智能体学习的世界模型的发展之间仍然存在显著的差距。主要挑战之一是如何在交互性和可扩展性之间取得最佳平衡。

在基于模型的强化学习领域,世界模型主要使用循环网络架构。这种设计允许在每一步中基于动作传递观察或潜在状态,从而促进交互行为学习。然而,这些模型大多专注于游戏或模拟环境,数据简单,并且对大规模复杂的 in-the-wild 数据进行建模的能力有限。

相比之下,互联网规模的视频生成模型可以合成逼真的长视频,这些视频可以通过文本描述或未来动作序列进行控制。虽然这样的模型允许高层次的、长期的规划,但它们的轨迹级交互性并没有为智能体提供足够的粒度来有效地学习精确的行为作为基本技能。

来自清华大学华为诺亚方舟实验室、天津大学的研究者提出了 iVideoGPT(Interactive VideoGPT),这是一个可扩展的自回归 Transformer 框架,它将多模态信号(视觉观察、动作和奖励)集成到一系列 token 中,通过预测下一个 Token 使智能体能够进行交互体验。

iVideoGPT 采用新颖的压缩 tokenization 技术,可有效离散高维视觉观察。利用其可扩展架构,研究者能够在数百万人类和机器人操作轨迹上对 iVideoGPT 进行预训练,从而建立一个多功能基础,可用作各种下游任务的交互式世界模型。该研究促进了交互式通用世界模型的发展。
图片
  • 论文地址:https://arxiv.org/pdf/2405.15223
  • 论文标题:iVideoGPT: Interactive VideoGPTs are Scalable World Models

方法

在这一部分,研究团队介绍了一种可扩展的世界模型架构 ——iVideoGPT,其具有极高的灵活性,能够整合多模态信息,包括视觉观察、动作、奖励以及其他潜在的输入。

iVideoGPT 的核心包括一个压缩 tokenizer,用于离散化视频帧,以及一个自回归 transformer,用于预测后续 token。通过在多样化的视频数据上进行预训练,该模型可以获得广泛的世界知识,然后有效地迁移到下游任务中。
图片
架构

压缩 tokenization。Transformer 在处理离散 token 序列方面表现特别出色。VQGAN 是一种常用的视觉 tokenizer,用于将原始像素转换为离散 token。研究者提出用一种由双编码器和解码器 {(E_c, D_c),(E_p, D_p)} 组成的新型条件 VQGAN 对视频进行 token 化。

如图 3a 所示,初始上下文帧图片包含丰富的上下文信息,通过 N 个 token 独立地进行 token 化和重构

图片

相比之下,由于上下文帧和未来帧之间存在时间冗余,只有必要的变化信息如移动对象的位置和姿态,才需要被编码。上述过程是通过使用条件编码器和解码器实现的:

图片

研究人员通过在多尺度特征图之间使用交叉注意力来实现条件机制。总的来说,tokenizer 是通过以下目标进行训练的:

图片

该研究提出的 tokenization 主要有两个好处:

  • 首先,它显著减少了 token 化后视频的序列长度,该长度随帧数的增加而线性增长,但增长率 n 要小得多;
  • 其次,通过条件编码,预测后续 token 的 transformer 可以更容易地保持上下文的时间一致性,并专注于建模必要的动态信息。

Transformer 的可交互预测。Token 化后,视频被展平成一系列 token:

图片

长度为图片。特殊的 slot token [S] 被插入以划定帧边界,并促进额外低维模态(如动作)的融合。如图 3b 所示,一个类似 GPT 的自回归 transformer 被用于通过逐帧生成 next-token 来进行交互式视频预测。在这项工作中,该团队使用了 GPT-2 的模型大小,但采用了 LLaMA 架构,以便利用 LLM 架构的最新创新,如旋转位置嵌入。

预训练 

语言模型可以通过 next-word 预测以自监督的方式从互联网文本中获得广泛的知识。同样,世界模型的无动作(action-free)视频预训练范式将视频预测作为预训练目标,为 LLM 缺乏的物理世界知识提供互联网规模的监督。

研究人员在这一通用目标上预训练 iVideoGPT,应用交叉熵损失来预测后续视频 token:

图片

预训练数据。虽然互联网上有大量视频可用,但由于计算限制,研究人员特别为机器人操作领域预训练了 iVideoGPT。他们利用来自 Open X-Embodiment(OXE)数据集和 Something-Something v2(SSv2)数据集的 35 个数据集的混合,共计 150 万条轨迹。 

微调

动作条件与奖励预测。该团队的架构被设计为灵活地整合额外模态以学习交互式世界模型,如图 3b 所示。动作通过线性投影并添加到 slot token 嵌入中进行整合。对于奖励预测,他们没有学习独立的奖励预测器,而是在每个观察的最后一个 token 的隐藏状态上添加了一个线性头(linear head)。

这种多任务学习方法可以增强模型对任务相关信息的关注,从而提高控制任务的预测准确性。他们在方程式(3)的交叉熵损失之外,还使用了均方误差损失进行奖励预测。

Tokenizer 适应。研究团队选择更新完整模型,包括 tokenizer,以适应下游任务,并发现这一策略比参数高效的微调方法更有效。

很少有文献探讨将 VQGAN tokenizer 用于特定领域的数据。在这项工作中,由于 tokenization 将动态信息与上下文条件解耦,并假设虽然此模型可能在下游任务中遇到未见过的对象,如不同类型的机器人,但 transformer 从多样化场景中学到的基本物理知识 —— 如运动和交互是共享的。

这一假设得到了实验的支持,他们将 iVideoGPT 从混合预训练数据迁移到未见过的 BAIR 数据集,其中预训练的 transformer 可以零样本泛化预测自然运动,仅需对未见过的机器人抓手的 tokenizer 进行微调(见图 7)。这一特性对于将类似 GPT 的 transformer 扩展到大型尺寸尤为重要,能够在保持 transformer 完整的同时实现跨领域的轻量级对齐。
图片
实验

如表 1 所示,与 SOTA 方法相比,iVideoGPT 展现出了具有竞争力的性能,同时在其架构中实现了交互性和可扩展性。虽然初步实验是在 64×64 的低分辨率下进行的,但 iVideoGPT 可以轻松扩展到 RoboNet 的 256×256。
图片
有关定性结果,请参阅图 9。
图片
图 4 显示了 iVideoGPT 与基准模型相比的成功率。iVideoGPT 在两个 RoboDesk 任务中大幅优于所有基线,并实现了与最强模型 SVG' 相当的平均性能。
图片
图 6 显示基于模型的算法不仅比无模型算法提高了样本效率,而且达到或超过了 DreamerV3 的性能。
图片
接下来该研究分析了大规模预训练 iVideoGPT 在未见过的 BAIR 数据集上的零样本视频预测能力。有趣的是,研究者在图 7 的第二行观察到,iVideoGPT 在没有微调的情况下,预测了一个机器人抓手的自然运动 —— 尽管与预训练数据集不同。这表明,尽管由于预训练数据的多样性不足,模型在完全未见过的机器人上的零样本泛化能力有限,但它有效地将场景上下文与运动动态分离开来。相比之下,使用经过适应的 tokenizer,未经过微调的 Transformer 成功地迁移了预训练知识,并在第三行预测了新型机器人的运动,提供了与第四行中完全微调的 Transformer 相似的感知质量,定量结果见图 8a。 
图片
了解更多结果,请参考原论文。
产业Interactive VideoGPT
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据迁移技术

数据迁移(又称分级存储管理,hierarchical storage management,hsm)是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的 数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一 级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

多任务学习技术

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

QGAN技术

清华和中科大的研究者在 Science Advances 上发表论文《Quantum generative adversarial learning in a superconducting quantum circuit》,介绍了他们在超导量子电路上实现了第一个生成对抗学习的原理验证,即量子版本的 GAN。据介绍,实验中生成的单个 qubit 的平均保真度为 98.8%。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

视频预测技术

视频预测任务是指在基于给定的视频帧序列,生成一个可信的未来帧序列。

推荐文章
暂无评论
暂无评论~