Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI机器人,一出手就是王炸

机器之能报道

作者:机器之心编辑部

网友:波士顿动力要整点新舞步,才能让Figure 01下热搜。

「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」

本周三,半个硅谷都在投的明星机器人创业公司 Figure,发布了自己第一个 OpenAI 大模型加持的机器人 demo。

这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资,才十几天就直接用上了 OpenAI 的多模态大模型。

如你所见,得到 OpenAI 大模型能力加持的 Figure 01 现在是这个样子的。

图片

它可以为听从人类的命令,递给人类苹果。

图片

将黑色塑料袋收拾进框子里。

图片

将杯子和盘子归置放在沥水架上。

图片

需要强调的是:你看到的这一切,只用到了一个神经网络

完整的demo视频如下所示:

视频链接:https://mp.weixin.qq.com/s/2dppl15wwbDuuUcwmhP5ag

广大网友在看到如此惊艳的 demo 后,对机器人的发展速度感到震惊,我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹,已经准备好迎接更多的机器人了。

图片图片图片

还有网友调侃道:「波士顿动力:好的,伙计们,这是一场真正的竞争。让我们回到实验室,设计更多舞蹈套路。」

图片

所有这些,全是机器人自学的!

Figure创始人Brett Adcock表示,视频中Figure 01展示了端到端神经网络框架下与人类的对话,没有任何远程操作。并且,机器人的速度有了显著的提升,开始接近人类的速度。

图片

Figure机器人操作高级AI工程师Corey Lynch介绍了此次Figure 01的技术原理。他表示,Figure 01现在可以做到以下这些:

  • 描述其视觉体验
  • 规划未来的行动
  • 反思自己的记忆
  • 口头解释推理过程

图片
他接着解释道,视频中机器人的所有行为都是学到的(再次强调不是远程操作),并以正常速度(1.0x)运行。

在具体实现过程中,他们将机器人摄像头中的图像输入,并将机载麦克风捕获的语音文本转录到由 OpenAI训练的大型多模态模型中,该模型可以理解图像和文本。该模型对整个对话记录进行处理,包括过去的图像,从而获得语言响应,然后通过文本到语音的方式将其回复给人类。

此外,该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令,从而将特定的神经网络权重加载到GPU上并执行策略。

图片将Figure 01 连接到大型预训练多模态模型为其提供了一些有趣的新功能。Figure 01 + OpenAI 现在可以:

  • 描述其周围环境。
  • 使用常识推理做出决定。例如,「桌子上的盘子和杯子等餐具接下来可能需要放进沥水架」。
  • 将「我饿了」等模棱两可的高级请求转化为一些适合上下文的行为,例如「递给对方一个苹果」。
  • 用简单的英语描述为什么它执行特定的操作。例如,「这是我可以从桌子上为您提供的唯一可食用物品」。

图片

理解对话历史的大型预训练模型为Figure 01提供了强大的短期记忆

考虑一个简单的问题:「你能把它们放在那里吗?」

其中 「它们」指的是什么?「那里」又是哪里?正确回答这个问题需要反思记忆的能力。

通过预训练模型分析对话的图像和文本历史记录,Figure 01快速形成并执行计划:1)将杯子放在沥水架上,2)将盘子放在沥水架上。

图片

关于学到的低级双手操作,所有行为均由神经网络视觉运动transformer策略驱动,将像素直接映射到动作。这些网络以10hz 的频率接收机载图像,并以200hz的频率生成 24-DOF 动作(手腕姿势和手指关节角度)。

这些动作充当高速「设定点」,以供更高速率的全身控制器跟踪。这是一个有用的关注点分离,其中:

  • 互联网预训练模型对图像和文本进行常识推理,以得出高级规划
  • 学习到的视觉运动策略执行计划,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形的袋子。
  • 全身控制器确保安全、稳定的动力,例如保持平衡。

最后他表示,即使在几年前,自己还认为人形机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。显然,现在已经发生了太多变化。

图片Figure,具身智能时代最热创业公司

最近,生成式 AI 的竞争正在走向长文本、多模态,各家科技公司和机构也没有忘记投资下个热点——具身智能。

具身智能,对于计算机视觉、机器人等领域来说是一个很有挑战的目标:假设 AI 智能体(机器人)不仅能接收来自数据集的静态图像,还能在三维虚拟世界甚至真实环境中四处移动,并与周围环境交互,那我们就会迎来技术的一次重大突破,从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。

被生成式 AI 龙头 OpenAI 看好的具身智能,最有希望通向具身智能的公司,似乎就是这家 Figure。

3月1日,Figure 宣布完成惊人的 6.75 亿美元 B 轮融资,公司估值达到 26 亿美元。一眼望去,感觉半个硅谷都投了它:微软、英特尔、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英伟达、贝索斯、「木头姐」的方舟投资、Parkway Venture Capital、Align Ventures 等。

该公司的产品 Figure 01,据称是世界上第一个具有商业可行性的自主人形机器人,身高 1.5 米,体重 60 公斤,可承载 20 公斤货物,采用电机驱动。它的可工作时长是 5 小时,行走速度每秒 1.2 米,可以说很多指标已经接近人类。

自 2023 年 1 月以来,人们对 Figure 的关注度一直在上升。虽然到目前为止,公司一共才发布过四个 demo 视频。其中的一个展示了 Figure 01 是如何制作咖啡的:

图片

据Figure表示,机器人练习这些动作的方法是端到端的,神经网络的训练时间是10小时。

在 2 月 27 日的视频里,Figure 01 自主完成了一个典型的物流环节任务——搬运空箱。

图片

当然,速度还是比人类慢了很多。不过在这些任务中,Figure 01 都是完全自主地执行任务。所谓「完全自主」,是指只需将机器人放在地面上(无论放在屋里什么地方),在没有其他用户输入的情况下,直接按开始就行。

在训练过的大型视觉语言模型( VLM )帮助下,人形机器人会先识别、定位目标箱子,然后推理合适的拿放姿势。接下来,Figure 01 会导航自己到目标跟前,检测抓取点和手部力量,尝试抓取成功并将箱子放到传送带上。

这些技术亮点也是 Figure 和一直希望回归机器人领域的 OpenAI 达成合作协议的重要原因之一——将 OpenAI 的研究与 Figure 的机器人经验结合起来,为人形机器人开发下一代 AI 模型。OpenAI 也希望将自己的高性能多模态大模型扩展到机器人领域。

除了接受大笔风投之外,Figure 也在积极拓展落地场景。目前,Figure 01 已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试,人们计划让机器人替代人类从事一些危险度高的任务。

参考链接:
https://twitter.com/i/status/1767913661253984474
https://www.figure.ai/

产业OpenAI机器人技术
1
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

宝马机构

宝马(BMW)是享誉世界的豪华汽车品牌。宝马的车系有1、2、3、4、5、6、7、8、i、X、Z等几个系列,还有在各系基础上进行改进的M系(宝马官方的高性能改装部门)。 宝马公司创建于1916年,总部设在德国巴伐利亚州慕尼黑。BMW的蓝白标志宝马总部所在地巴伐利亚州州旗的颜色。百年来,宝马汽车由最初的一家飞机引擎生产厂发展成为以高级轿车为主导,并生产享誉全球的飞机引擎、越野车和摩托车的企业集团,名列世界汽车公司前列。其全称为Bavarian Motor Work。 2018年7月10日,长城公司与宝马公司签署合资协议,合资成立光束汽车有限公司。2018年10月11日,宝马集团举行了中国战略协议签字仪式和华晨宝马铁西新工厂开工仪式。宝马对华晨宝马投资新增30亿欧元,合资协议延至2040年。 2018年12月18日,世界品牌实验室编制的《2018世界品牌500强》揭晓,宝马排名第16位。

www.bmwgroup.com
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

推荐文章
暂无评论
暂无评论~