Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

斯坦福最强家务机器人ALOHA 2来了,成本不到20万,联手谷歌DeepMind,完全开源

可以想象,不断进化的双臂机器人未来将最大程度地「解放」人的双手。

2023 年,斯坦福大学等机构推出了一个用于双机械手远程操作的低成本开源硬件系统 ALOHA,它可以远程操作并完成组装链条、托举乒乓球等复杂、丰富的任务。

今年 1 月,谷歌 DeepMind 与斯坦福又联合推出了 Mobile ALOHA,同样可以进行远程操作并模仿双手操作,通过移动底座在大的空间范围内实现远程操作。这样一来,备菜、翻炒、出锅,洗衣、逗猫、浇花它是样样精通,名副其实的家务机器人火出了圈。

图片

今天,谷歌 DeepMind 联合斯坦福推出了 ALOHA 的增强版本 ——ALOHA 2。与一代相比,ALOHA 2 具有更强的性能、人体工程学设计和稳健性,且成本还不到 20 万元人民币。并且,为了加速大规模双手操作的研究,ALOHA 2 相关的所有硬件设计全部开源了,并提供了详细的教程,以及具有系统识别功能的 ALOHA 2 MuJoCo 模型。

图片

谷歌 DeepMind 放出了相关论文《ALOHA 2: An Enhanced Low-Cost Hardware for Bimanual Teleoperation》。

图片

  • 论文地址:https://aloha-2.github.io/assets/aloha2.pdf

  • 项目主页:https://aloha-2.github.io/

我们先来一睹升级后的 ALOHA 2 能做些什么,比如将不同的玩具放进三个不同的碗里。

图片

玩杂耍,你扔我接。

图片

开可乐瓶并将可乐倒进别的杯子里、开酸奶盒。

图片

图片

给熊猫玩偶戴上美瞳。

图片

更难以想象的是,它还能变身扒手,悄无声息拿走你的钱包,并给你放回去。

图片

简直绝了!ALOHA 2 显著提高了一代 ALOHA 的耐用性,从而能够在更复杂的任务上进行大规模数据收集。

相较于一代,ALOHA 2 都升级了些啥

为支持对复杂操作任务的研究,在 ALOHA 平台上扩大数据收集的规模成为目标之一,包括使用的机器人数量、每台机器人的数据收集小时数以及数据收集的多样性。这一扩展过程改变了相对于第一代 ALOHA 平台的要求和范围。

对于 ALOHA 2,除了在 ALOHA 平台的基础上建设,研究者还针对以下领域寻求进一步改进:

  • 性能和任务范围:增强 ALOHA 性能的关键组件,包括夹持器和控制器,以实现更广泛的操控任务。

  • 用户友好性和人体工学:为了优化大规模数据收集,优先考虑用户体验和舒适度,包括改进用户界面系统的响应性和人体工学设计。

  • 稳健性:增加系统的稳健性,最大限度地减少因诊断和维修造成的停机时间。这就需要简化机械设计,并确保更大规模的机器人队伍在整体上易于维护。

根据上述目标,ALOHA 2 的具体改进如下:

  • 夹持器:研究者为领导机器人和跟随机器人的夹持器设计了新的低摩擦轨道。对于领导机器人,这改善了遥操作的人体工学和响应速度。对于跟随机器人,这改善了延迟和夹持器的力量输出。此外,他们还升级了手指上的抓胶带材料,以提高耐用性和抓取小物体的能力。

  • 重力补偿:研究者使用现成的组件创建了一个被动的重力补偿机制,与 ALOHA 原有的抓带材料系统相比,这提高了耐用性。

  • 框架:研究者简化了围绕工作单元的框架,同时保持了相机安装点的刚性。这些变化为人机协作者和机器人互动的道具提供了空间。

  • 相机:ALOHA 2 使用更小的英特尔 RealSense D405 相机和定制的 3D 打印相机支架,以减小跟随臂的占地面积,从而减少对操作任务的阻碍。这些摄像头还具有更大的视场角、深度、全局快门和更多的定制功能。

  • 模拟:研究者在 MuJoCo Menagerie 中的 MuJoCo 模型中模拟了 ALOHA 2 机器人的精确规格,从而改进了数据收集、策略学习和模拟评估,以应对具有挑战性的操纵任务。

图片

夹持器

为了使遥控操作更顺畅,并改善人体工程学,本次采用了低摩擦轨道设计,降低了机械复杂性,从而取代了 ALOHA 原有的剪刀导轨式机械手设计。

图片

研究者设计并制造了低摩擦随动机械手,取代了 ALOHA 最初的设计。较低的摩擦减少了领导机器人和跟随机器人夹持器之间感知的延迟,显著改善了远程操作期间的用户体验。

框架

研究者重新设计了支撑框架,并使用 20x20mm 铝型材将其制成。框架为领导机器人和重力补偿系统提供支撑,并为俯视摄像机和虫眼摄像机提供安装点。

图片

与 ALOHA 相比,本次设计进行了简化,去掉了工作台与遥控操作员相对一侧的垂直框架。增加的空间使数据收集方式更加多样化。例如,人类协作者可以更轻松地站在工作区的对面与机器人互动,从而收集人机互动数据。此外,还可以在工作台前摆放较大的道具,让机器人与之互动。

图片

模拟

研究者发布了用于 ALOHA 2 工作单元的 MuJoCo Menagerie 模型,它对于远程操作和模拟学习非常有用。

与之前发布的 ALOHA 模型相比,MuJoCo 的物理精度更高、视觉保真度更高,允许快速、直观、可扩展的模拟数据收集。

图片

                               MuJoCo 模型渲染。

图片

                                模拟远程操作任务。

以下为使用 Google Scanned Objects Dataset 与 MuJoCo 模型进行远程操作的示例(1 倍速度):

图片

图片

图片

图片

更多细节内容请参阅原论文。

产业MuJoCoALOHA 2谷歌 DeepMind斯坦福大学
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

推荐文章
暂无评论
暂无评论~