Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键​

Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。

面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误:

图片

归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从 ChatGPT 到 Sora 一致采用的自回归生成式路线。

LeCun 一直认为, GPT 系列 LLM 模型所依赖的自回归学习范式对世界的理解非常肤浅,远远比不上真正的「世界模型」。

所以,一遇到「Sora 是世界模型」的说法,LeCun 就有些坐不住:「仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。」

图片

那么,面对视觉任务,世界模型如何获得自回归模型一般的性能?

最近,Lecun 发布了自己关于「世界模型」的新论文《在视觉表征学习中学习和利用世界模型》,刚好解释了这个问题。

图片

  • 论文标题:Learning and Leveraging World Models in Visual Representation Learning

  • 论文链接:https://arxiv.org/pdf/2403.00504.pdf

通过以往 LeCun 对世界模型的介绍,我们知道,JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)相比于重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器,更能产生优秀的视觉输入表达。

2023 年 6 月,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型,名为图像联合嵌入预测架构(I-JEPA),能够通过创建外部世界的内部模型来学习, 比较图像的抽象表征(而不是比较像素本身)。今年,在 Sora 发布的第二天,Meta 又推出了 AI 视频模型 V-JEPA,可根据信号的损坏或转换版本来预测信号的表征,让机器通过观察了解世界的运作方式。

而最新这项研究揭示了利用世界模型进行表征学习的另一个关键方面:赋予世界模型的容量直接影响所学表征的抽象程度。

直观地说,如果预测器是身份,网络将捕捉到高级语义信息,因为它只会学习编码输入 y 及其变换 x 之间的共同点。另一方面,由于预测器的容量更大,可以有效反转变换的效果,编码器的输出可以保留更多关于输入的信息。

这两个理念是等变表征学习的核心,能有效应用变换的预测器是等变的,而不能有效应用变换的预测器是不变的。研究者发现,对变换不变的世界模型在线性评估中表现更好,而等变的世界模型与更好的世界模型微调相关。这就在易适应性和原始性能之间做出了权衡。因此,通过学习世界模型来学习表征,能灵活掌握表征的属性,从而使其成为一个极具吸引力的表征学习框架。

接下来,我们来看一些具体的研究细节。

方法

图像世界模型(Image World Models,IWM)采用 JEPA 的框架,类似于 I-JEPA。该框架中的预测器是世界模型的实例化。研究者认为,如果一个世界模型能够在潜在空间中应用变换,从而学习等变表征,那么它就是有能力的。研究者将有能力的世界模型为等变( equivariant ),称能力较差的世界模型为不变( invariant )。

使用 JEPA 的一个吸引人之处在于,使用对比方法学习等变表征的方法通常需要依赖于不变性损失来提高表征质量,无论是显式的还是隐式的。而 JEPA 的方法则不存在这一缺点,因为表征的语义方面是通过潜在空间的修补学习的。在潜空间中工作还能让网络去除不必要的信息或难以预测的信息。这就使得 JEPA 方案很有吸引力,因为对于重建方法来说,重建的质量不一定与表征质量相关。

要训练 IWM,第一步是从图像 I 生成源视图和目标视图(图 2 中分别为 x 和 y)。

图片

研究者将 a_x→y 表示为从 x 到 y 的变换参数,即初始变换过程的逆转。它包含了 x 与 y 之间颜色抖动差异的信息,以及是否应用了每种破坏性增强的信息。

通过 p_ϕ 进行世界建模。然后分别通过编码器 f_θ 和它的指数移动平均图片得到源和目标。这样就有了 图片图片。使用 EMA 网络对避免解决方案崩溃至关重要。为了给作为世界模型的预测器设置条件,它被输入了关于目标的几何信息,以掩码 token 的形式以及 a_x→y。研究者将这些掩码 token 称为 m_a,它们对应于 图片 中的位置。

然后,预测器 p_ϕ 将嵌入的源补丁 x_c、变换参数 a_x→y 和遮罩令牌 m_a 作为输入。其目标是匹配 p_ϕ(z_x, a_x→y, m_a) = 图片 到 z_y。损失。使用的损失函数是预测 图片 及其目标 z_y 之间的平方 L2 距离:

图片

学习用于表征学习的图像世界模型

如前所述,学习等差数列表征和学习世界模型是密切相关的问题。因此,可以借用等差数学文献中的指标来评估训练好的世界模型的质量。研究者使用的主要指标是平均互斥等级(MRR)。

为了计算它,研究者生成了一组增强目标图像(实际为 256 幅)。他们通过预测器输入干净图像的表征,目的是预测目标图像。然后计算预测结果与增强表征库之间的距离,从中得出目标图像在该 NN 图中的等级。通过对多个图像和变换的倒数等级进行平均,就可以得到 MRR,从而了解世界模型的质量。MRR 接近 1 意味着世界模型能够应用变换,相反,MRR 接近 0 则意味着世界模型不能应用变换。

为了构建性能良好的 IWM,研究者分离出三个关键方面:预测器对变换(或操作)的条件限制、控制变换的复杂性以及控制预测器的容量。如果对其中任何一个环节处理不当,都会导致表征不稳定。

如表 1 所示,不进行调节会导致世界模型无法应用变换,而使用序列轴或特征轴进行调节则会导致良好的世界模型。研究者在实践中使用了特征调节,因为它能带来更高的下游性能。

图片

如表 2 所示,增强越强,学习强世界模型就越容易。在更广泛的增强方案中,这一趋势仍在继续。

图片

如果变换很复杂,预测器就需要更大的能力来应用它,意味着能力成为了学习图像世界模型的关键因素。如上表 2 ,深度预测器意味着能在更广泛的增强上学习到强大的世界模型,这也是 IWM 取得成功的关键。因此,预测能力是强大世界模型的关键组成部分。

与计算 MRR 的方法相同,我们可以将预测的表征与变换图像库进行比较,并查看与预测最近邻的图像。如图 1 所示,IWM 学习到的世界模型能够正确应用潜空间中的变换。不过,可以看到灰度反转时存在一些误差,因为灰度无法正确反转。

以下可视化效果有助于强化 IWM 能够为图像转换学习强大的世界模型这一事实。

图片

利用世界模型完成下游任务

论文还探讨了如何使用世界模型完成下游任务。

在图像上学习的世界模型的局限性在于,它们所解决的任务与大多数下游任务并不一致。

研究者表示,已经证明 IWM 可以应用色彩抖动或对图像进行着色,但这些并不是推动计算机视觉应用的任务。这与 LLM 形成了鲜明对比,在 LLM 中,预测下一个 token 是此类模型的主要应用之一。

因此,研究者探索了如何在视觉中利用世界模型来完成应用变换之外的任务,重点是图像分类图像分割等判别任务。

首先,需要对预测器进行微调以解决判别任务。研究者按照 He et al. (2021) 的方法,重点放在与微调协议的比较上。所研究的所有方法都在 ImageNet 上进行了预训练和评估,并使用 ViT-B/16 作为编码器。

表 3 展示了定义预测任务的各种方法及其对性能的影响。

图片

表 4 中比较了预测器微调和编码器微调以及预测器和编码器的端到端微调,编码器使用了 ViTB/16。

图片

从表 5 中可以看出,在对所有协议的性能进行汇总时,利用 IWM 可以在冻结编码器的情况下获得最佳性能,即允许利用预训练的每一部分。

图片

表 6 展示了 I-JEPA 和 IWM 在 ADE20k 图像分割任务中的表现。

图片

在图 3 中,展示了预测器微调与编码器微调相比的效率。

图片

表征学习的主要目标之一是获得可用于各种任务的表征。就像预测器是为解决各种任务(着色、内画、变色)而训练的一样,对于每个任务,都有一个任务 token,以及一个任务特定的头和 / 或损失函数。然后合并所有任务损失,并更新预测器和特定任务头。这里研究了一种简单的情况,即批次在任务之间平均分配,同时注意到其他采样策略可能会进一步提高性能。

图片

总之,当学习到一个好的世界模型后,通过微调就可以将其重新用于下游任务。这样就能以极低的成本实现与编码器微调相媲美的性能。通过进行多任务微调,它还能变得更加高效,更凸显了这种方法的多功能性。

图像世界模型使表征更加灵活

为了完成对 IWM 在表征学习中的分析,研究者研究了它在自监督学习中常用的轻量级评估协议上的表现。本文重点关注线性探测和注意力探测。

如表 8 所示,当 IWM 学习一个不变的世界模型时,其表现类似于对比学习方法,如 MoCov3,在线性探测中与 MIM 或其他基于 JEPA 的方法相比有显著的性能提升。同样,当 IWM 学习一个等变的世界模型时,其表现类似于 MIM 方法,如 MAE,在线性探测中性能较低,但在注意力探测中表现更具竞争力。

图片

这表明,方法之间的重大区别不一定在于表征的质量,而在于它们的抽象级别,即从中提取信息的难易程度。线性探测是最简单的评估之一,注意力探测稍微复杂一些,而微调则是更复杂的协议。

图 4 可以看出,评估协议的适用性与世界模型的等价性之间有着明显联系。不变性较高的世界模型在线性探测中表现出色,而等变世界模型在使用更大的评估头部,如在预测器微调中,有组合更好的表现。研究者们还注意到,由等变世界模型产生的更丰富的表征在跨域 OOD 数据集上具有更好的性能。

图片

图 5 中按表征的抽象程度将方法分类。对比学习方法占据了高抽象度的一端,只需一个简单的协议就能轻松提取信息。然而,如表 5 所示,当忽略调整成本时,这些方法的峰值性能较低。与之相反的是掩蔽图像建模法(MIM),它在微调等复杂评估中性能更强,但在线性探测中由于信息不易获取而表现不佳。通过改变世界模型的等变性,IWM 能够在对比学习方法和 MIM 之间有属于自己的位置,如图 4 和表 8 所示,图片图片是 IWM 光谱的两个极端。

图片

这个光谱可以用自监督学习(SSL)的理念「学习可预测之物」来概括。通过一个弱世界模型进行学习意味着它无法正确地建模世界,编码器会移除那些无法预测的信息。反之,如果世界模型非常强大,那么表征就不需要那么抽象或语义化,因为它能够在任何情况下找到预测表征的方法。这意味着,学习一个世界模型提供了一种可度量的方式来控制表征的抽象级别。

更多技术细节,请参阅原文。

工程JEPA世界模型Yann LeCunSora
相关数据
图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~