Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下

想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。

今年以来,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型(Multi-modal Large Language Model)在自然语言处理、视觉理解、机器人等任务上取得了显著的成功,但这类模型都是基于二维图片文本数据训练得到,在理解三维世界和与三维世界交互方面能力欠缺。

为解决这一问题,北京通用人工智能研究院联合北京大学、卡耐基梅隆大学和清华大学的研究人员提出了首个三维世界中的具身多任务多模态的通才智能体 LEO

图片

  • 论文链接:https://arxiv.org/abs/2311.12871
  • 项目主页:https://embodied-generalist.github.io/
  • 代码链接:https://github.com/embodied-generalist/embodied-generalist

通才智能体 LEO 以大语言模型为基础,可以完成感知(perception)、定位(grounding)、推理(reasoning)、规划(planning)和动作执行(acting)等任务。

LEO 的三维视觉语言理解、具身推理和动作执行能力在现实世界中有广泛的应用场景与巨大的应用价值。作为未来的家庭助理,LEO 可以与人交互,回答与场景相关的问题,例如根据用户喜好调整家居布局、帮助用户找到特定物品、为用户的各种问题提供建议。LEO 的导航能力可用于购物中心、办公楼中的智能引导,其操控能力可用于家居自动化任务,如打扫、整理或简单厨房任务,以及仓库和物流中心的物品整理和搬运。
研究概述

图片

图 1. LEO 能力示意图

通才智能体 LEO 以 LLM 为基础,在不同任务之间采用共享的架构和权重,经由如下两个阶段训练得到:

1)三维视觉 - 语言对齐 
2)视觉 - 语言 - 动作指令微调。

为完成上述两阶段的训练,作者收集并生成了包括物体级别(object-level)和场景级别(scene-level)的大规模数据集,并在问答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身导航(embodied navigation)、机器人操作(robotic manipulation)多个任务上展示了 LEO 杰出的能力。

该工作的主要贡献可以总结如下:

1)构建了第一个能够在三维世界中进行感知、定位、推理、规划和动作执行的具身智能体 LEO。

2)提出了高效的学习策略,将以物体为中心(object-centric)的三维表征与 LLM 连接起来,同时加入具身动作任务,在三维世界中打通视觉 - 语言 - 动作(vision-language-action)。

3)提出了生成高质量三维视觉语言数据的方法,构建了视觉 - 语言 - 动作(vision-language-action)指令微调的大规模数据集。

模型介绍

图片

图 2. LEO 的通用任务序列和自回归式训练目标

LEO 模型的整体设计思想围绕两个核心点:

1)在统一的框架内处理第一视角的二维图片、三维场景信息和自然语言指令,并同时支持文本与动作的输出;
2)能够充分利用预训练语言模型的先验信息来促进下游任务。基于上述两个原则,作者设计了如图 2 所示的模型框架,将所有的多模态(2D、3D、text)输入都对齐到 LLM 的文本空间。

其中,作者利用 PointNet++ 提取出场景点云中物体级别的特征,随后用空间编码器(Spatial Transformer)对空间位置关系进行建模,从而得到三维场景级别(scene-level)的特征。输入中的二维图像则经过预训练模型 OpenCLIP ConvNext 处理得到第一视角的视觉特征。二维和三维的视觉特征最后分别经过 projector 映射到文本空间中。

具体过程如图 3 所示。

图片

图 3. 图片和三维场景特征提取示意图

LLM 方面,作者采用 Vicuna-7B 作为预训练语言模型来处理 token 序列,训练中,利用 LoRA 方法来微调 LLM,训练目标如图 2 中所示。

数据集

数据集概况

根据两阶段的训练策略,作者分别收集了相应的数据,其整体概况如图 4 所示。数据集涵盖了大规模的三维物体数据,如 Objaverse,以及三维场景数据集,如 ScanNet、3RScan、Matterport3D 等,还包括了机器人操作相关的数据集 CLIPort,表 1 则给出了两阶段训练中所有数据的来源和数量统计。

图片

图 4. LEO 数据集示意图

图片

表 1. 数据集统计

LLM 辅助数据生成

为了解决当前三维场景视觉语言指令微调数据不足、现有的生成方法得到的数据质量不高的问题,作者提出了基于三维在场景图(scene graph)的数据生成方法,以及精炼过程(refinement procedures)来生成高质量的数据。具体过程如图 5 所示。

图片

图 5. 基于 LLM 的三维视觉 - 语言指令微调数据生成

为了提高 LLM 生成数据的可靠性,作者提出了物体为中心的思维链(Object-centric Chain-Of-Thought)方法,提高生成回答和场景的关联,减少了输出中的幻觉(hallucination),并进一步通过精炼过程(Refinement Procedures)纠正生成数据中的错误。经过这一流程,最终得到了高质量的指令微调数据,更多关于数据集生成方法的细节和统计结果参见论文的附录部分。

模型能力

三维视觉语言理解和具身推理
                               视频 1. LEO 在 ScanQA, Scan2Cap, SQA 等任务上的表现

作者在三维场景问答数据集 ScanQA、三维物体描述数据集 Scan2Cap、三维场景具身推理数据集 SQA3D 上测试了模型的能力,这几类任务都以三维场景、自然语言指令为输入,其中 SQA3D 任务上还包括了提问时所处的位置和朝向,基于这些输入模型需要给出相应的回答,如上面的视频所示。

作者比较了之前各个数据集上的 SOTA 方法,如 3D-VisTA [4],3D-LLM [5],结果表 2 所示,实验结果表明 LEO 在三维视觉语言理解的任务上的多个指标明显优于之前的方法。

图片

表 2 - 表 4. LEO 在三维视觉语言理解任务上的性能表现

三维世界中的具身动作执行                                 视频 2. LEO 在 manipulation 和 object navigation 任务上的表现

作者测试了 LEO 在机器人操作数据集 CLIPort 上的表现,该任务要求模型根据三维、二维感知结果和自然语言指令输出机械臂操作指令,如视频 2 所示。作者比较了 CLIPort 的基线方法 [6],结果如表 3 所示,证明了提出方法的优越性。另外,作者还测试了 LEO 在 MP3D(in domain)和 HM3D(out of distribution)这两个数据集上的表现,这一任务以三维场景、第一视角图片和自然语言指令作为输入,模型需要给出下一步的动作,如视频 3 所示。

论文与近期的相关工作 [7][8] 进行了比较,如表 4 所示。可以看出所提方法在学习最短路径数据下的表现可圈可点,在 SPL 指标上超越了先前的基准方法,而由于 LEO 的模型没有采用 recurrence 的结构,因此在学习 70k human demonstrations 的设定下表现出的能力有限。

图片

图 6. LEO 的能力可视化

三维场景中的对话和规划

图 6 给出了 LEO 在多种任务中的可视化结果,可以看出,由于经过了指令微调训练的过程,LEO 可以进行多轮的场景对话,如按照用户需求在场景中寻找物体、按照不同的要求描述房间中的物体、给出建议等。还可以根据场景信息进行任务规划,如将房间整理为一个学习空间、打扫房间、重新装饰房间等,更多的例子可以在项目主页中进一步了解。

实验分析

图片

图 7. 消融实验结果

为了研究所提出的训练策略有效性,作者进行了不同数据集和训练阶段的多组对比实验。其中图 7-(a) 展示的是采用不同的训练数据得到的模型在多个任务上的表现,图 7-(b) 展示的是采用不同规模的 token 训练得到的模型对 test loss 的影响。

从实验可以得出如下结论:1)指令微调训练遵循 scaling law [9] 的规律。2)所提出的两阶段训练策略是重要的,对齐阶段的缺失会造成性能的明显下降。3)简单将模型参数规模从 7B 扩大至 13B 会造成性能的降低。

结论

本文提出的智能体 LEO 将当前的 LLM 模型能力拓展到了三维世界以及动作执行任务上,这一工作为构建通用具身智能体迈出了重要的一步。

基于这一工作,作者认为未来可以在如下方面进一步进行探索:

1)通过大规模的场景 - 文本数据对提升三维视觉 - 语言定位能力;
2)填补视觉 - 语言能力和动作执行能力之间的差距;
3)探索具身通用智能体的对齐和安全问题。

团队介绍

论文核心团队来自北京通用人工智能研究院通用视觉实验室,团队负责人黄思远博士长期从事关于三维场景理解、具身智能体、视觉机器人等方向的相关工作。该团队拥有包括全职研究员、工程师、以及实习生在内的三十余人团队,团队的长期目标是打造未来的通用具身智能体 / 视觉机器人。

图片

参考文献
[1] https://cdn.openai.com/papers/gpt-4-system-card.pdf
[2] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023b.
[3] Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan
Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al. Palm-e: An embodied multimodal
language model. In International Conference on Machine Learning (ICML), 2023.
[4] Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, and Chuang Gan. 3d-llm: Injecting the 3d world into large language models. arXiv preprint arXiv:2307.12981, 2023.
[5] Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, and Qing Li. 3d-vista: Pre-trained transformer for 3d vision and text alignment. In International Conference on Computer Vision (ICCV), 2023c.
[6] Mohit Shridhar, Lucas Manuelli, and Dieter Fox. Cliport: What and where pathways for robotic manipulation. In Conference on Robot Learning (CoRL), 2021.
[7] Ram Ramrakhya, Eric Undersander, Dhruv Batra, and Abhishek Das. Habitat-web: Learning embodied object-search strategies from human demonstrations at scale. In Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
[8] Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain, Vincent-Pierre Berges, Pieter Abbeel, Jitendra Malik, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv preprint arXiv:2303.18240, 2023. 7
[9] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
产业通才智能体 LEO
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
暂无评论
暂无评论~