Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型+机器人,详尽的综述报告来了,多位华人学者参与

大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的大型语言模型(LLM)、大型视觉 - 语言模型(VLM)、大型音频 - 语言模型(ALM)和大型视觉导航模型(VNM)可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域,机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人领域。

近日,斯坦福大学和普林斯顿大学等多所大学以及英伟达和 Google DeepMind 等多家企业的一个联合研究团队发布了一篇综述报告,总结了基础模型在机器人研究领域的发展情况和未来挑战。

图片

  • 论文地址:https://arxiv.org/pdf/2312.07843.pdf

  • 论文库:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者,包括朱玉可、宋舒然、吴佳俊、卢策吾等。

在范围广泛的大规模数据上预训练的基础模型在微调之后可以适用于多种多样的下游任务。基础模型已经在视觉和语言处理方面取得了重大突破,相关模型包括 BERT、GPT-3、GPT-4、CLIP、DALL-E 和 PaLM-E。

在基础模型出现之前,用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反,基础模型则是会使用大范围多样化数据进行预训练,在其他领域(比如自然语言处理计算机视觉和医疗保健)的应用证明了其适应能力、泛化能力和总体性能表现。最终,基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。

图片

相比于针对特定任务的模型,从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域,多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征,而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分,包括感知、决策和控制。

不仅如此,基础模型还能提供零样本学习能力,也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例,增强机器人在非结构化环境中的适应能力和灵活性。

将基础模型整合进机器人系统能提升机器人感知环境以及与环境交互的能力,有可能实现上下文感知型机器人系统。

举个例子,在感知领域,大型视觉 - 语言模型(VLM)能够学习视觉和文本数据之间的关联,从而具备跨模态理解能力,从而辅助零样本图像分类零样本目标检测和 3D 分类等任务。再举个例子,3D 世界中的语言定基(language grounding,即将 VLM 的上下文理解与 3D 现实世界对齐)可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来,从而增强机器人的空间感知能力。

在决策或规划领域,研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。

通过利用与操作、导航和交互有关的语言线索,机器人可以执行更加复杂的任务。比如对于模仿学习强化学习等机器人策略学习技术,基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。

另外,研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明,VLM 模型的视觉问答(VQA)能力可以用于机器人用例。举个例子,已有研究者使用 VLM 来回答与视觉内容有关的问题,从而帮助机器人完成任务。另外,也有研究者使用 VLM 来帮助数据标注,为视觉内容生成描述标签。

尽管基础模型在视觉和语言处理方面具备变革性的能力,但对于现实世界的机器人任务来说,基础模型的泛化和微调依然颇具挑战性。

这些挑战包括:

1) 缺少数据:如何为机器人操作、定位、导航等机器人任务获取互联网规模级的数据,以及如何使用这些数据执行自监督训练;

2) 巨大的差异性:如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性,同时保持基础模型所需的通用性;

3) 不确定性的量化问题:如何解决实例层面的不确定性(比如语言歧义或 LLM 幻觉)、分布层面的不确定性和分布移位问题,尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估:如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。

5) 实时性能:如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署,以及如何加速基础模型的推理 —— 这是在线决策所需的。

这篇综述论文总结了当前基础模型在机器人领域的使用情况。他们调查了当前的方法、应用、挑战,并建议了解决这些挑战的未来研究方向,他们也给出了将基础模型用于实现机器人自主能力的潜在风险。

基础模型背景知识

基础模型有数以十亿计的参数,并且使用了互联网级的大规模数据进行预训练。训练如此大规模和高复杂性的模型需要极高的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量计算资源,需要 GPU 或 TPU 等专用硬件,还需要用于模型训练的软件和基础设施,这些都需要资金。此外,需要基础模型还需要很长的时间,这也会导致高成本。因此这些模型往往是作为可插拔模块使用的,即将基础模型整合进各种应用中,而无需大量定制工作。

表 1 给出了常用基础模型的细节。

图片

这一节将主要介绍 LLM、视觉 Transformer、VLM、具身多模态语言模型和视觉生成模型。还会介绍用于训练基础模型的不同训练方法。

他们首先介绍了一些相关的术语和数学知识,其中涉及 token 化、生成模型判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。

然后他们介绍了大型语言模型(LLM)的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型(VLM)、具身多模态语言模型、视觉生成模型

机器人研究

这一节关注的是机器人决策、规划和控制。在这一领域,大型语言模型(LLM)和视觉语言模型(VLM)都有潜力用于增强机器人的能力。举个例子,LLM 可以促进任务规范过程,让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务,视觉理解能力是至关重要的。现在,机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。

基于目标的视觉 - 语言策略学习(不管是通过模仿学习还是强化学习)有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力,因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。

这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习,其中包括基于语言的模仿学习和语言辅助的强化学习

第二部分是基于目标的语言 - 图像价值学习。

第三部分介绍了使用大型语言模型规划机器人任务,其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。

第四部分是用于决策的上下文学习(ICL)。

接下来是机器人 Transformer。

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的基础模型,其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。

图片

感知

与周围环境交互的机器人会接收不同模态的感官信息,比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征,其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互,通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。

这一节将关注与机器人感知相关的一系列任务,这些任务可使用基础模型来对齐模态,从而获得提升。其中的重点是视觉和语言。

这一节分为五部分,首先是开放词汇库的目标检测和 3D 分类,然后是开放词汇库的语义分割,接下来是开放词汇库的 3D 场景和目标表征,再然后是学习到的功能可供性,最后是预测模型。

具身 AI

近段时间,有研究表明 LLM 可以成功用于具身 AI 领域,其中「具身(embodied)」通常是指在世界模拟器中的虚拟具身,而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子,Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动,而无需对 GPT-4 的模型参数进行微调。

机器人学习方面的一个重要研究方向是强化学习,也有研究者在尝试通过基础模型来为强化学习设计奖励。

使用基础模型辅助机器人执行高层规划自然也早有研究者尝试。此外也有研究者在尝试将基于思维链的推理和动作生成方法用于具身智能体。

挑战和未来方向

这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。

第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题,其中包括:

1. 使用非结构化游戏数据和未标注的人类视频来扩展机器人学习

2. 使用图像修复(Inpainting)来增强数据

3. 克服训练 3D 基础模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 使用 VLM 进行数据增强

6. 机器人的物理技能受限于技能的分布

第二个挑战则与实时性能有关,其中关键的是基础模型的推理时间。

第三个挑战涉及到多模态表征的局限性。

第四个挑战则是如何量化不同层级的不确定性的问题,比如实例层面和分布层面,另外还涉及到如何校准以及应对分布移位的难题。

第五个挑战涉及到安全评估,包括部署之前的安全测试和运行时的监控和对分布外情况的检测。

第六个挑战则涉及到如何选择:使用现有的基础模型还是为机器人构建新的基础模型?

第七个挑战涉及到机器人设置中的高度可变性。

第八个挑战是如何在机器人设置中进行基准评估以及保证可复现性。

更多研究细节,可参考原论文。

产业机器人大模型
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

视觉问答技术

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

判别模型技术

在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。 判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率P(y|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑x与y之间的联合分布。 在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine), 提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

辅助机器人技术

辅助机器人是一种能够感知,处理感官信息并执行动作的自动化设备/机器。这种机器人用于辅助或扩展一般人类的运动和/或认知能力。面向对象可以是老年人和重度残疾人,或者单纯性辅助一般人的体力/脑力。 这种机器人设备一般强调智能化和鲁棒性维持系统的安全和灵活性,通过集成远程信息处理,机电一体化和其他技术设备(例如先进的人机界面)与人进行物理或者其他感官接触。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

工业机器人技术

工业机器人是面向工业加工制造的可自动控制,多用途,需有三轴及以上可编程的固定或可移动机械手。其系统中包括带有执行机构的机械手以及示教控制器。 它可以依靠自身控制能力来执行预设的轨迹及动作。典型应用包括焊接,刷漆,组装,采集和放置等工作。工业机器人完成工作具有高效性,持久性和准确性。目前常用的工业机器人包括关节机器人,SCARA机器人,并联机器人和直角坐标机器人等。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自动化技术技术

自动化技术是一门综合性技术,它和控制论、信息论、系统工程、计算机技术、电子学、液压气压技术、自动控制等都有着十分密切的关系,而其中又以“控制理论”和“计算机技术”对自动化技术的影响最大。一些过程已经被完全自动化。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

图像修复技术

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

零样本目标检测技术

指在训练分类器的时候可以不需要A类物体样本就能在测试时识别A类物体。

推荐文章
暂无评论
暂无评论~