Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来

过去一年中,连连取得突破的大模型正在重塑机器人研究领域。

在最先进的大模型成为具身机器人感知世界的「大脑」之后,机器人的进化速度取得了远超想象的进步。

7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。

只需要向对话一样下达命令,它就能在一堆图片中辨认出霉霉,送给她一罐「快乐水」。

甚至能主动思考,完成了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。

图片

在 RT-2 之后,谷歌 DeepMind 又提出了 Q-Transformer,机器人界也有了自己的 Transformer 。Q-Transformer 使得机器人突破了对高质量的演示数据的依赖,更擅长依靠自主「思考」来积累经验。

RT-2 发布仅两个月,又迎来了机器人的 ImageNet 时刻。谷歌 DeepMind 联合其他机构推出了 Open X-Embodiment 数据集,改变了以往需要针对每个任务、机器人具体定制模型的方法,将各种机器人学的知识结合起来,创造出了一种训练通用机器人的新思路。

想象一下,只需向你的机器人小助理发出「为我打扫房子」或「为我们做一顿美味健康的饭菜」等简单的要求,它们就可以完成这些工作。打扫房间或做饭这种任务,对于人类来说很简单,但对于机器人来说,可真不容易,需要它们对世界有深度理解。

基于在机器人 Transformer 领域深耕多年的研究基础, 近期,谷歌宣布了一系列机器人研究进展:AutoRT、SARA-RT 和 RT-Trajectory,它们能够帮助机器人更快地做出决策,更好地理解它们身处于怎样的环境,更好地指导自己完成任务。

谷歌相信随着 AutoRT、SARA-RT 和 RT-Trajectory 等研究成果的推出,能为现实的世界机器人的数据收集、速度和泛化能力带来增益。

接下来,让我们回顾一下这几项重要研究。

AutoRT:利用大型模型更好地训练机器人

AutoRT 结合了大型基础模型(如大型语言模型(LLM)或视觉语言模型(VLM))和机器人控制模型(RT-1 或 RT-2),创建了一个可以在新环境中部署机器人用以收集训练数据的系统。AutoRT 可以同时指导多个配备了视频摄像机和末端执行器的机器人,在各种各样环境中执行多样化的任务。

具体来说,每个机器人将根据 AutoRT,使用视觉语言模型(VLM)来「看看四周」,了解其环境和视线内的物体。接下来,大型语言模型会为其提出一系列创造性任务,例如「将零食放在桌子上」,并扮演决策者的角色,为机器人选择需要执行的任务。

研究人员在现实世界中对 AutoRT 进行了长达七个月的广泛评估。实验证明,AutoRT 系统能够同时安全地协调多达 20 个机器人,最多时共能协调 52 个机器人。通过指导机器人在各种办公楼内执行各种任务,研究人员收集了涵盖 77,000 个机器人试验,6,650 个独特任务的多样化数据集。

图片

上图呈现了 AutoRT 系统的运作过程:(1)自主轮式机器人找到了一个有多个物体的位置。(2)VLM 向 LLM 描述场景和物体。(3)LLM 为机器人提出各种操作任务,并决定哪些任务机器人可以独立完成,哪些任务需要人类远程控制,哪些任务不可能完成,然后做出选择。(4)机器人尝试选择要做的任务,收集实验数据,并对数据的多样性和新鲜度进行评分。机器人将不断重复这个过程。

AutoRT 具有利用大型基础模型的潜力,这对于机器人理解实际应用中的人类指令至关重要。通过收集更全面的实验训练数据和更多样化的数据,AutoRT 能够扩展机器人的学习能力,为现实世界的机器人训练带来提升。

在机器人融入我们的日常生活之前,需要保证它们的安全性,这要求研究者做到负责任地开发,并对机器人的安全性进行深度研究。

虽然 AutoRT 现在只是一个数据收集系统,但可以将其视为现实世界中自主机器人的早期阶段。它具有安全护栏,其中一项是一套以安全为重点的提示词,它能够在机器人执行基于 LLM 的决策时提供需要遵守的基本规则。

这些规则部分受到艾萨克・阿西莫夫的机器人三定律的启发,其中最重要的是机器人「不得伤害人类」。安全规则还要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。

仅在提示词方面下功夫,也无法完全保证机器人实际应用中的安全问题。因此,AutoRT 系统还包含实用安全措施层这一机器人技术的经典设计。例如,协作机器人的程序被设定为如果其关节上的力超过给定阈值,则自动停止,并且所有自主控制的机器人都能够通过物理停用开关被限制在人类监督员的视线范围内。

SARA-RT:让机器人 Transformer(RT)变得更快、更精简

另一项成果 SARA-RT,可将机器人 Transformer(RT)模型转换为更高效的版本。

谷歌团队开发的 RT 神经网络架构已被用于最新的机器人控制系统,包括 RT-2 模型。最好的 SARA-RT-2 模型在获得简短的图像历史记录后,比 RT-2 模型的精确度高 10.6%,速度快 14%。谷歌表示,这是首个在不降低质量的情况下提高计算能力的可扩展注意力机制

虽然 Transformer 功能强大,但它们可能会受到计算需求的限制,从而减慢决策速度。Transformer 主要依赖于二次复杂度的注意力模块。这意味着,如果 RT 模型的输入增加一倍(例如,为机器人提供更多或更高分辨率的传感器),处理该输入所需的计算资源就会增加四倍,从而导致决策速度减慢。

SARA-RT 采用了一种新颖的模型微调方法(称为「向上训练」)来提高模型的效率。向上训练将二次复杂性转换为单纯的线性复杂性,从而大幅降低了计算要求。这种转换不仅能提高原始模型的速度,还能保持其质量。

谷歌希望许多研究人员和从业人员能将这一实用系统应用于机器人技术及其他领域。由于 SARA 提供了加快 Transformer 速度的通用方法,无需进行计算成本高昂的预训练,因此这种方法具有大规模推广 Transformer 技术的潜力。SARA-RT 不需要任何额外的代码,因为可以使用各种开源的线性变体。

当 SARA-RT 应用于拥有数十亿个参数的 SOTA RT-2 模型,它能在各种机器人任务中实现更快的决策和更好的性能:

图片

用于操纵任务的 SARA-RT-2 模型。机器人的动作以图像和文本指令为条件。

凭借其坚实的理论基础,SARA-RT 可应用于各种 Transformer 模型。例如,将 SARA-RT 应用于点云 Transformer(用于处理来自机器人深度摄像头的空间数据),其速度能够提高一倍以上。

RT-Trajectory:帮助机器人泛化

人类可以直观地理解、学会如何擦桌子,但机器人需要许多可能的方式将指令转化为实际的物理动作。

传统上,对机械臂的训练依赖于将抽象的自然语言(擦桌子)映射到具体的动作(关闭抓手、向左移动、向右移动),这使得模型很难推广到新任务中。与此相反,RT - 轨迹模型通过解释具体的机器人动作(如视频或草图中的动作),使 RT 模型能够理解 「如何完成」任务。

RT-Trajectory 模型能自动添加视觉轮廓,描述训练视频中的机器人动作。RT-Trajectory 将训练数据集中的每段视频与机器人手臂执行任务时抓手的 2D 轨迹草图叠加在一起。这些轨迹以 RGB 图像的形式,为模型学习机器人控制策略提供了低层次、实用的视觉提示。

在对训练数据中未见的 41 项任务进行测试时,由 RT-Trajectory 控制的机械臂的性能比现有的 SOTA RT 模型高出一倍多:任务成功率达到 63%,而 RT-2 的成功率仅为 29%。

该系统的用途十分广泛,RT-Trajectory 还可以通过观看人类对所需任务的演示来创建轨迹,甚至可以接受手绘草图。而且,它还能随时适应不同的机器人平台。

图片左图:只使用自然语言数据集训练的 RT 模型控制的机器人,在执行擦桌子这一新任务时受挫,而由 RT 轨迹模型控制的机器人,在经过 2D 轨迹增强的相同数据集训练后,成功规划并执行了擦拭轨迹。右图:训练有素的 RT 轨迹模型在接到新任务(擦桌子)后,可以在人类的协助下或利用视觉语言模型自行以多种方式创建 2D 轨迹。

RT 轨迹利用了丰富的机器人运动信息,这些信息存在于所有机器人数据集中,但目前尚未得到充分利用。RT-Trajectory 不仅代表着在制造面向新任务高效准确移动的机器人的道路上又迈进了一步,而且还能从现有数据集中发掘知识。

产业RT-TrajectorySARA-RTAutoRT谷歌 DeepMind
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~