Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。

视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。

关于这一问题,研究者们常常从「人类」身上获得启发:通过具身体验和进化发展,人类拥有固有的空间推理技能,可以毫不费力地确定空间关系,比如目标相对位置或估算距离和大小,而无需复杂的思维链或心理计算。

这种对直接空间推理任务的熟练,与当前视觉语言模型能力的局限形成鲜明对比,并引发了一个引人注目的研究问题:是否能够赋予视觉语言模型类似于人类的空间推理能力?

最近,谷歌提出了一种具备空间推理能力的视觉语言模型:SpatialVLM。

图片

  • 论文标题:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

  • 论文地址:https://arxiv.org/pdf/2401.12168.pdf

  • 项目主页:https://spatial-vlm.github.io/

值得注意的是,研究者假设当前视觉语言模型在空间推理能力方面的限制并非源于其架构的局限,而更可能是由于在大规模训练时所使用的常见数据集的限制。例如,许多视觉语言模型是在以图像 - 描述对为特征的互联网规模数据集上进行训练的,这些数据集中包含的空间信息有限。存在限制的原因是获取富含空间信息的具身数据或 3D 感知查询的高质量人工注释比较困难,自动数据生成和增强技术是解决该问题的一种方法,然而很多之前的数据生成研究侧重于生成具有真实语义标注的照片逼真图像,忽略了对象和 3D 关系的丰富性。

与之相反,本文研究者专注于直接从现实世界数据中提取空间信息,以捕捉真实 3D 世界的多样性和复杂性。这一创新源自近期视觉模型方面在自动从 2D 图像中生成 3D 空间注释方面的进展。

SpatialVLM 系统可以实现数据生成和对视觉语言模型进行训练,以增强它们的空间推理能力。具体而言,研究者结合面向开放词汇的目标检测(open-vocabulary detection)、度量深度估计、语义分割和以目标为中心的描述模型,实现了在大规模地密集注释真实世界数据。SpatialVLM 将由视觉模型生成的数据转换成一种可用于描述、VQA 和空间推理数据的混合体上训练视觉语言模型的格式。

实验证明,本文训练的视觉语言模型表现出许多令人满意的能力。首先,它在回答定性空间问题方面的能力得到显著提升。其次,即使在有噪声的训练数据下,它也能可靠地进行定量估计。这种能力不仅使其具备关于目标大小的常识知识,还使其在重新排列任务的开放词汇奖励标注方面非常有用。第三,本文的空间视觉语言模型在自然语言界面的基础上,结合强大的大型语言模型,能够进行空间推理链以解决复杂的空间推理任务。

方法概览

为了使视觉语言模型具备定性和定量的空间推理能力,研究者提出生成一个大规模的空间 VQA 数据集用于训练视觉语言模型。具体而言,就是设计一个全面的数据生成框架,首先利用现成的计算机视觉模型,包括开放词汇检测、度量深度估计、语义分割和以目标为中心的描述模型,提取以目标为中心的背景信息,然后采用基于模板的方法生成质量合理的大规模空间 VQA 数据。本文中,研究者使用了生成的数据集训练 SpatialVLM,以学习直接的空间推理能力,然后将其与 LLMs 嵌入的高层常识推理相结合,解锁链式思维的空间推理。

图片

2D 图像的空间基准

研究者设计了一个生成包含空间推理问题的 VQA 数据的流程,具体流程如图 2 中所示。

图片

1、语义过滤:在本文的数据合成流程中,第一步是采用基于 CLIP 的开放词汇分类模型对所有图像进行分类,排除不适合的图像。

2、2D 图像提取以目标为中心的背景:这一步获得由像素簇和开放词汇描述组成的以目标为中心的实体。

3、2D 背景信息到 3D 背景信息:经过深度估计,将单眼的 2D 像素提升到度量尺度的 3D 点云。本文是第一个将互联网规模的图像提升至以目标为中心的 3D 点云,并用其合成带有 3D 空间推理监督的 VQA 数据。

4、消除歧义:有时一张图像中可能有多个相似类别的目标,导致它们的描述标签存在歧义。因此,在询问关于这些目标的问题之前,需要确保参考表达不含有歧义。

大规模空间推理 VQA 数据集

研究者通过使用合成数据进行预训练,将「直观」的空间推理能力融入 VLM。因此,合成涉及图像中不超过两个目标(表示为 A 和 B)的空间推理问答对。这里主要考虑以下两类问题:

1、定性问题:询问某些空间关系的判断。例如「给定两个对象 A 和 B,哪个更靠左?」

2、定量问题:询问更精细的答案,包括数字和单位。例如「相对于对象 B,对象 A 向左多少?」、「对象 A 距离 B 有多远?」

此处,研究者指定了 38 种不同类型的定性和定量空间推理问题,每种问题包含大约 20 个问题模板和 10 个答案模板。

图 3 展示了本文获取的合成问答对的示例。研究者创建了一个包括 1000 万张图像和 20 亿个直接空间推理问答对 (50% 是定性问题,50% 是定量问题) 的庞大数据集。

图片

学习空间推理

直接空间推理:视觉语言模型接收图像 I 和关于空间任务的查询 Q 作为输入,并输出一个答案 A,并且以文本的格式呈现,无需使用外部工具或与其他大型模型进行交互。本文采用与 PaLM-E 相同的架构和训练流程,只是将 PaLM 的骨干替换为 PaLM 2-S。然后,使用原始 PaLM-E 数据集和作者的数据集的混合进行模型训练,其中有 5% 的 token 用于空间推理任务。

链式思维空间推理:SpatialVLM 提供了自然语言接口,可用于查询具有基础概念的问题,当与强大的 LLM 结合使用时,可以执行复杂的空间推理。

与 Socratic Models 和 LLM 协调器中的方法类似,本文利用 LLM (text-davinci-003) 来协调与 SpatialVLM 进行通信,以链式思维提示的方式解决复杂问题,如图 4 所示。

图片

实验及结果

研究者通过实验证明并回答了如下的问题:

问题 1:本文设计的空间 VQA 数据生成和训练流程,是否提高了 VLM 的一般空间推理能力?以及它的表现如何?

问题 2:充满噪音数据的合成空间 VQA 数据和不同的训练策略,对学习性能有何影响?

问题 3:装备了「直接」空间推理能力的 VLM,是否能够解锁诸如链式思维推理和具身规划等新能力?

研究者通过使用 PaLM-E 训练集和本文设计的空间 VQA 数据集的混合来训练模型。为了验证 VLM 在空间推理上的局限是否是数据问题,他们选择了当前最先进的视觉语言模型作为基线。这些模型的训练过程中语义描述任务占据了相当的比重,而不是使用本文的空间 VQA 数据集进行训练。

空间 VQA 表现

定性空间 VQA。对于这一问题,人工注释的答案和 VLM 输出均为自由形式的自然语言。因此,为了评估 VLM 的性能,研究者使用人工评定员确定答案是否正确,表 1 中展示了各个 VLM 的成功率。

图片

定量空间 VQA。如表 2 所示,本文的模型在两个指标上都比基线表现更好且遥遥领先。

图片

空间 VQA 数据对通用 VQA 的影响

第二个问题是,由于与大量的空间 VQA 数据共同训练,VLM 在其他任务上的表现是否会因此而降低。通过将本文模型与在通用 VQA 基准上没有使用空间 VQA 数据进行训练的基本 PaLM 2-E 进行了比较,如表 3 所总结的,本文的模型在 OKVQA 基准上达到了与 PaLM 2-E 相当的性能,其中包括了有限的空间推理问题,并且在 VQA-v2 test-dev 基准上表现略好,该基准包含了空间推理问题。

图片

ViT 编码器在空间推理中的影响

Frozen ViT (在对比目标上进行训练) 是否编码了足够的信息来进行空间推理?为了探索这一点,研究者的实验从第 110,000 步的训练开始,分成两个训练运行,一个 Frozen ViT,另一个 Unfrozen ViT。通过对这两个模型进行了 70,000 步的训练,评估结果如表 4 所示。

图片

含噪声的定量空间答案的影响

研究者者使用机器人操作数据集训练视觉语言模型,发现模型能够在操作领域进行精细的距离估计 (图 5),进一步证明了数据的准确性。

图片

表 5 比较了不同的高斯噪声标准差对定量空间 VQA 中整体 VLM 性能的影响。

图片

空间推理启发新应用

1、视觉语言模型作为密集奖励注释器

视觉语言模型在机器人学领域有一个重要的应用。最近的研究表明,视觉语言模型和大型语言模型可以作为机器人任务的通用开放词汇奖励注释器和成功检测器,可用于制定有效的控制策略。然而,VLM 的奖励标注能力通常受到空间意识不足的限制。由于 SpatialVLM 能够从图像中定量估计距离或尺寸,因此它独特地适用作为密集的奖励注释器。作者进行一项真实的机器人实验,用自然语言指定了一个任务,并要求 SpatialVLM 为轨迹中的每一帧注释奖励。

图 6 中每个点表示一个目标的位置,它们的颜色表示注释的奖励。随着机器人朝着指定目标的进展,可以看到奖励是单调增加的,表明 SpatialVLM 作为密集奖励注释器的能力。

图片

2、链式思维空间推理

研究者还研究了 SpatialVLM 是否能够用于执行需要多步推理的任务,考虑到它对基本空间问题的增强回答能力。作者在图 1 和图 4 中展示了一些例子。当大语言模型 (GPT-4) 装备有 SpatialVLM 作为空间推理子模块时,可以执行复杂的空间推理任务,比如回答环境中的 3 个对象是否能够形成「等腰三角形」。

更多技术细节和实验结果请参阅原论文。

产业SpatialVLM视觉语言模型
1
相关数据
视觉问答技术

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

图像提取技术

图像提取包括图像的特征检测和特征提取过程。 特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征被检测后它可以从图像中被提取出来。这个过程可能需要许多图像处理的计算机。其结果被称为特征描述或者特征向量。 低层次的特征提取方法包括:边缘检测、角检测、区域检测、脊检测等,还有曲度检测以及运动检测。 高层次的特征提取方法包括:1.固定形状匹配方法如阈值、模板匹配和霍夫变换等;2.灵活变形分析方法。 进一步特征提取与降维有关,常用的降维技术有主成分分析法、独立成分分析法、等距特征映射等。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~