Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

翻车,才是斯坦福炒菜机器人学习人类的常态

Mobile ALOHA 也有翻车时刻。

电视剧中角色的惊艳亮相不一定能打动你的心,但斯坦福全职管家兼御用大厨一定能拿下你对机器人的期待。

你还记得斯坦福 Mobile ALOHA 的神操作吗?备菜、翻炒、出锅,洗衣、逗猫、浇花它是样样精通。不过它也并非一直如此优秀。人有失足,马有失蹄,ALOHA 也有翻车时刻。我们一起品鉴一下 ALOHA 的「报错」操作。

原本是为了擦酒杯下的酒渍,或许是怕观众老爷看不出,只能多洒出来一点来引起注意。

每个物品都是独立的个体,锅、油、虾、碟都将有属于自己的归宿。

图片

抓走物品旁边的空气,四舍五入也算是抓走了物品。

图片

别人炒菜用时五分钟,机器人大厨先用一分钟炒一炒锅。

图片

看到这样的行动表现,打破了我们对 Mobile ALOHA 的美好期待,坐等机器人为我们养老只能是「阳光下的泡沫,一触就破」。

实际上,在最初两个 Mobile ALOHA 火爆的视频中,不少读者对于它的行为方式就有些错误的认知。比如在帮男生刮胡子这项任务中,可能大家都误以为这是机器人自主完成的,然而事实并非如此,这是通过人类远程控制完成的:

图片

来自英伟达的研究科学家 Jim Fan 对此发布了推文,提醒大家别因为视频的惊艳程度就忽略了其中技术真相。他提到,应该将 Mobile ALOHA 看作是一辆制造精良的跑车,而它仍需要人类驾驶才能表现出自己的能力。现在的水平与能够完全自主的厨师还有较大的差距。

图片

其实,研究团队在发布 Demo 时的项目页面中就对 Mobile ALOHA 的工作进行了明确分类。其中包括 Mobile ALOHA 能够自主完成的任务以及需要远程操作完成的任务。

研究团队在介绍时表示,对于一些简单的任务,Mobile ALOHA 可以在 50 次学习之后达到 90% 的行动成功率。对于一些简单的任务,如炒一只虾仁(有且只有一只)、拿块抹布、摆放好椅子,Mobile ALOHA 无需人类指点,还是可以自己 hold 住的。

图片

Mobile ALOHA 可以自己完成的任务

不过,更加复杂的任务,如像炒虾仁滑蛋、打蛋、装盘等复杂操作,它依旧需要人类远程操控,而且有些视频还做了 10 倍加速处理。

图片

依旧需要远程操控才能完成的任务

机器人技术领域,从人类示范中进行的模仿学习已经取得了令人瞩目的成绩。其实训练 Mobile ALOHA 的过程就是像是在玩游戏 —— 操作机器人直到动作通关。Mobile ALOHA 之所以能够让人发出惊叹,是因为它所展示的任务不局限于桌面操作。这些复杂且灵活的动作源于研究者开发的一套系统,用于模仿需要全身控制的双臂移动操作任务。利用 Mobile ALOHA 收集的数据,进行有监督的行为克隆。

在上一篇文章中,我们已经分享了 Mobile ALOHA 具体的技术细节,但是并不直观。

图片

图(左)展示了操作机器人最简单的方法就是将操作员的腰部与移动底座系在一起的。

加州大学圣地亚哥分校学生梁力天在 X 上发布了 Mobile ALOHA 的体验视频,他操纵 ALOHA 拿取箱子上的物品。简单来讲,如果你现在拥有了 Mobile ALOHA,最重要的一步就是需要你与 Mobile ALOHA「合二为一」。虽然梁力天没有体验炒虾这样的高难度任务,但是依旧对 Mobile ALOHA 的技术表示了认可:它的直接关节映射使用起来非常直观,这使它成为比 VR 控制器更好的解决方案。这样的能力,只要 3.2 万美元的预算真的太值了。


图片

图源:https://twitter.com/litian_liang/status/1744555501860638921

https://twitter.com/DrJimFan/status/1744786506810900679

在这个体验视频发出后,大家都很好奇,远程操控的原理到底是什么?Jim Fan 是这样解释的:

训练机器人就像在真实世界中玩游戏,一个人操作一个操纵杆来执行任务和收集数据,在遇到安全问题时进行及时的干预。

远程操控可以通过不同的方式完成,这里有一些其他选择:

  • 动作捕捉(MoCap):应用动捕系统来捕捉手部关节的细粒度运动。例如,演示者可以佩戴 CyberGlove 并操纵对象。CyberGlove 会实时捕捉运动信号和触觉反馈,然后将其重新定位到人形机器人上。

  •  另一种比较笨拙的方法是佩戴专用手套以及进行一些标记(markers)。NVIDIA 的 DexPilot 可实现无标记且无需戴手套的数据收集。人类操作员只需徒手即可执行任务。

  • VR 头显:将训练室视为虚拟现实游戏,并扮演机器人,这样做的优势是可以进行可扩展的远程数据收集。

最后,Jim Fan 说道,「我相信,只要有好的硬件,到 2024 年底,我们就能大幅提升自主技能。」

图片

参考链接:

https://twitter.com/DrJimFan/status/1744786506810900679

https://twitter.com/tonyzzhao/status/1743378437174366715

https://mobile-aloha.github.io/resources/mobile-aloha.pdf

https://mobile-aloha.github.io/

https://twitter.com/litian_liang/status/1744555501860638921

产业Mobile ALOHA
相关数据
虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

推荐文章
暂无评论
暂无评论~