机器之能报道
作者:SIA
这是一个用 Chat GPT 控制机器人,并让后者生成真实物理世界动作的案例:
当工作人员告诉机器人 Digit(人形机器人公司 Agility 的明星产品 ) 「清理这个烂摊子」,Digit 会自动收拾散落在地上的东西,并将不同类型的垃圾放入不同垃圾桶。
Digit 虽然一开始就知道地板上有垃圾,垃圾桶可以被用来回收垃圾,但它本身对什么是烂摊子、清理之类的概念一无所知,但它会根据 LLM 的输出去理解它们。
令人惊讶的是,在生成人工智能发展不到一年的时间里,我们就走到了这一步。公司 CEO Damion Shelton 透露,该公司正在生成式人工智能方面做一些尝试,包括用 GPT 控制 Digit,比如移动、做出挥手等动作。
目前,我们仍然需要对 Digit 进行编程,以便在部署它的独特工作空间中运行。然而,现在像 ChatGPT 这样的 LLM 可以写代码,因此,Agility 设想了一个不需要为每个任务编程的多用途机器人。
「Digit 与 LLM 相结合,它可以做的事情可能比我之前打赌机器人十年后会做的还要好。」 Damion Shelton 认为。
确实,有了生成式人工智能,我们可以用机器人做一些其他事情。谷歌已经尝试将这些东西放在一起,Pieter Abbeel 认为。
他是伯克利机器人学习实验室的主任,也是 Covariant 联合创始人、首席科学家。这家创业公司正使用人工智能和丰富的数据集来训练拣选机器人。公司四位联合创始人中有三位与 OpenAI 有直接联系。
比如,机器人技术的一大挑战是高级推理。这里面临两个挑战:一个是实际技能方面的,一个是你应该怎么做呢?
如果有人要求说,「给我做个炒鸡蛋」,这到底是什么意思? 这就是生成式人工智能模型派上用场的地方。模型是经过预训练的,制作炒鸡蛋可以被分解为:
去冰箱里拿鸡蛋;
获取煎锅;
拿黄油。
机器人可以走到冰箱跟前。它可能会问如何处理冰箱,然后模型会告诉它:
打开冰箱;
把东西从冰箱里拿出来。
传统的做法是,编程的人必须以某种方式用一个接一个的逻辑语句为机器人描述这个世界。现在,「语言模型似乎用一种漂亮的方式解决了这个问题。这对很多人来说是出乎意料的。」他认为。
在被问及如何看待生成式人工智能融入更广阔的机器人世界?他认为,有两个大趋势同时发生,但需要加以区分:「一个是基础模型,另一个是生成 AI,两者常常交织在一起,但它们是不同的。」
基础模型是在大量数据上训练的模型,包括那些与你所关心的内容只有些微关联的数据。这样做的好处就是,模型会在你关心的事情上表现得更好。
「本质上,所有生成模型都是基础模型,但有些基础模型不是生成 AI,因为它们做其他事情。」
比如,Covariant Brain 就是一个基础模型,在更多数据上训练一个大型的基础模型。传统的做法类似 GPT 之前的方法,对于每个用例,使用较小的数据子集来训练特定的 AI。所以,之前会有很多的自然语言模型。
基础模型是一种范式的转变。它起作用的原因是因为神经网络变得如此之大,就像一块巨大的海绵,不停地吸收东西。添加这些额外的东西不会伤害任何东西。这样做实际上帮了更多的忙。
「神经网络越大,它就越了解世界。这就是解锁人工智能驱动的机器人应用的原因,无论是拾取还是自动驾驶等等。」Pieter Abbeel 认为。
至于生成 AI,从本质上讲,这意味着它是生成数据。但这与生成标签有何不同?如果给它一个图像,它说「猫」,那也是在生成数据。只是它能够生成更多数据。同样,这与神经网络有关。神经网络更大,这使得它们不仅可以分析更大的东西,而且可以一致地生成更大的东西。
站在机器人技术中,有几个可以思考的角度。比如,建立对世界的更深刻理解。他举例道。
与其说「我要标记数据来教神经网络」,我可以说,「我要录制一段视频来记录发生的事情」,我的生成模型需要预测下一帧。通过迫使它理解如何预测未来,强迫它理解世界是如何运作的。
神经网络如此之大,我们训练神经网络来预测未来的帧。这样做的好处就是,除了训练它们为特定任务输出最佳动作外,模型实际上还学会了从更少数据中更快地输出动作。
而在 Ken Goldberg 看来,ChatGPT 横空出世意味着,我们现在有一个可以很好地处理语言的工具。「它很酷的地方在于,它使您可以访问场景的语义。」
除了帮助 Peter Abbeel 运营 BAIR(伯克利人工智能研究实验室)外,Ken Goldberg 也是 Ambi Robotics 首席科学家和联合创始人,该公司使用人工智能和机器人技术来解决包裹分类问题。
比如,你刚刚洒了一些东西,需要清理。通常机器人不知道该怎么做,但现在你有语言了。你把它运行到 ChatGPT 中,它会生成:
「拿块海绵。拿张餐巾纸。拿块布来。找找洒了的罐子,确保它能捡起来。」然后,机器人会根据输出,说,「周围有海绵吗?让我找一块海绵。」
桥接世界语义之间的联系— 洒了的东西和海绵 — 这是 ChatGPT 非常擅长的,也填补了一直存在的空白,也就是所谓的开放世界问题:
在此之前,我们必须对它将要遇到的每一件事进行编程。现在,我们有另一个来源可以建立我们以前无法建立的这些联系。这很酷。
Ken Goldberg 也做过一个项目叫做语言嵌入式辐射场(NeRF),也是一个全新的关于如何使用语言来确定在哪里拿东西的办法。比如,「这是杯子,用手柄捡起它」,系统似乎能够识别手柄在哪里。真的很有趣。
语言嵌入式辐射场(NeRF)技术:在 3D 世界中用自然语言灵活查询物体,比如乐高推土机。
至于如何看待生成式人工智能在机器人技术中的潜力?Ken Goldberg 认为 ,「这里的核心概念是 Transformer。」
它非常有趣,因为它观察的是序列,可以很好地预测下一项。比如,预测单词。声音序列也是如此,也可用于音频处理和预测,还有音素序列。它也可用于预测下一个图像。
如果现在可以预测下一个视频,接下来添加的就是控制。如果我在这里添加控制,那么,就可以预测——如果我做动作 A 或 B,接下来分别会发生什么。
「我可以查看我所有的动作,并选择让我更接近我想要看到的动作。」
现在,Ken Goldberg 想进入下一个阶段。比如,要让机器人清理我们面前的盘子。
现在,有了盘子的位置;我想要的状态是没有盘子、干净的桌面。那么,机器人需要采取什么行动顺序,才能到达目标那里呢?
不过,仅靠人工智能不足以开创机器人的新时代。机器人也需要获得物理智能。
如果你只有一台扫地机器人,不管 LLM 有多好,没有任何代码会教会它开到客厅并将吃剩的外卖盒子放进垃圾箱。
目前,精细运动控制的进展仍落后于神经语言模型的发展。这让人想起莫拉维克悖论对 AI 与机器人技术的观察:
让计算机在智力测试或跳棋中表现出成人水平的表现相对容易,而在感知和移动性方面,很难或不可能赋予它们一岁的技能。
类似 Digit 这样的机器人正逐渐拥有人一样的能力——会抓握的手、弯曲的膝盖以及提供推进力和平衡力的脚——有了这些能力,他们能胜任的工作也在不断变多
在 Demo 中,我们看到 Digit 从地上拾取垃圾并投入到垃圾箱。对于许多人来说,这是一项相对简单的活动,但对于机器人来说,这已经是一项机械工程的壮举。在其背后,公司花了数年时间研究步行和跑步的物理学,然后弄清楚如何将其转化为电线和滑轮。
一个人不用多想就能做到的事情,比如从马路牙子上走下来,绊了一下但没有摔倒,对机器人来说都是一个个挑战。在团队成功地将生物动力学转化为可操作的工程之后,这家公司才开始构造 Digit 的技能板块。
「让机器人看起来像人非常容易,但让机器人真正像人一样移动是非常困难的。」Digit 首席机器人官兼联合创始人 Jonathan Hurst 最近在接受《纽约客》杂志采访时表示。
那些最难的「简单」问题仍然存在。机器人技术仍然很难复制生成模型领域取得的成功。否则,OpenAI 也不会轻易解散其存在四年多的机器人团队。
「但从我们想要实现的目标来看,即构建(通用人工智能),缺少一些组件。」解散时,公司联合创始人 Wojciech Zaremba 曾说。
正如语言学家和认知科学家 Steven Pinker 在他 1994 年出版的《语言本能》所言,「三十五年来人工智能研究的主要教训是,困难的问题很容易,简单的问题很难。」