Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟、陈萍报道

建立元宇宙,从感知现实开始,Meta让机器人有「手感」

Facebook 改名后不久,其在官方博客中概述了其在开发硬件、模拟器、库、基准测试和数据集等方面的进展,想必扎克伯格推崇的元宇宙离不开这些技术的支持。

几天前,在 Facebook Connect 2021 线上大会中,扎克伯格正式宣布了 Facebook 的新名字——Meta。扎克伯格表示:「随着时间的推移,我希望我们被视为一家元宇宙公司」。此处的元宇宙本质上是一个虚拟现实平台,人们可以在这个平台上的数字环境中聚集、交流。实现这一愿景,当然离不开技术的加持。

就像改名一样始料未及,几年前扎克伯格曾认为 Facebook 没有理由要进行机器人方面的研究,但现在机器手上的触觉感知已经是 Meta 一个重要的新兴研究方向。

触觉感知旨在理解和复制物理世界中人类的触摸技能,使机器人更有效地与周围世界互动。触觉感知的进步将导致 AI 可以学习和使用自己的触觉以及与其他感知方式(如视觉和音频)结合使用,就像人类一样。此外,提高机器人的触觉将使它们更有能力,也更温和、更安全。

就在近日,Meta 概述了其在开发硬件、模拟器、库、基准测试和数据集方面的进展。触觉感知生态系统对于构建 AI 系统至关重要,通过触觉感知,AI 系统才具有理解和交互的功能。

具有触觉感知的机械手可以轻松的抓取鸡蛋:

左边没有触觉感知的机械手把鸡蛋捏碎了:

Meta 这项触觉感知上的进步得益于 DIGIT 传感器和一种名为 ReSkin 的触摸感应「皮肤」。现在 Meta 对这两项技术进行了详细的介绍。

硬件

让 AI 能够使用触觉数据并从中学习,首先需要能够收集和处理这些数据的传感器。理想情况下,触摸感应硬件应该模拟人类手指的许多属性。一方面,用于机器人指尖的传感器应该相对紧凑。这需要先进的小型化(miniaturization)技术,这些技术的生产成本非常高,并且通常超出了大多数学术研究的能力范围。另一方面,这类传感器需要承受因反复接触表面而造成的磨损。此外,触摸传感器还需要具有高分辨率,以测量有关被触摸对象的丰富信息,例如表面特征、接触力以及通过接触可识别的其他对象属性。

DIGIT

安装在机械手上的 DIGIT 传感器操纵玻璃弹珠。

为了提供一种专为机器人手动操作设计、易于构建、可靠、低成本、紧凑且高分辨率的触觉传感器,Meta(Facebook)在 2020 年发布了 DIGIT 的完全开源设计。与目前可用的商用触觉传感器相比, DIGIT 的制造成本要低得多,并且提供了数十万个接触点,大大提升了它的研究和使用价值。

作为 Meta AI 的合作伙伴,MIT 的衍生公司 GelSight 拥有独特的数字触觉传感技术和产品,现在将商业化制造 DIGIT。商用 DIGIT 将为更多研究人员提供触摸感应方面的便利,加快学术研究的进步。如果要制造 1000 个 DIGIT 传感器,那么每个 DIGIT 传感器的材料成本大约只有 15 美元,因此 Meta 的团队预计商用版 DIGIT 的成本不会太高。
ReSkin

除了 DIGIT,Meta AI 的研究者还和卡内基梅隆大学(CMU)合作开发了一种开源的触摸感应「皮肤」ReSkin,外形小巧,可以帮助机器人和其他机器在更大的表面上学习高频触觉。和 DIGIT 一样,ReSkin 旨在打造一个开源、强大且成本极低的系统,让研究人员能够专注于开发软件以帮助机器人感知触觉,而不必在硬件上浪费时间。

ReSkin 本身是一块 2 毫米厚的柔性硅胶片,其中混有磁性颗粒。每当有东西接触该胶片使其变形时,嵌入其中的磁性颗粒就被压扁,磁信号发生变化,由磁力计拾取。因此,ReSkin 不必直接与磁力计相连。这使得 ReSkin 传感器中最有可能损坏的部分变得非常容易更换,这也是 ReSkin 的优势所在。

ReSkin 可以帮助研究人员快速、大规模地提高他们的 AI 触觉感应技能。利用机器学习和磁感应方面的进步,ReSkin 具有廉价、多功能、耐用且可替换的优点。它采用自监督学习算法来帮助自动校准传感器,使其具有通用性并使得传感器和系统能够共享数据。

模拟

Meta 开发并开源了 TACTO,这是一种基于视觉的高分辨率触觉传感器模拟器,即使在没有硬件的情况下,也可实现更快的实验平台并支持机器学习研究。模拟器在机器人技术的原型设计、调试和基准测试中发挥着重要作用,因为模拟器使我们能够测试和验证假设,而无需在现实世界中进行耗时的实验。

TACTO 能够以每秒数百帧的速度呈现逼真的高分辨率触摸读数,通过简单设置来模拟基于视觉的触觉传感器,其中包括 DIGIT、OmniTact。TACTO 使研究人员能够模拟基于视觉的触觉传感器,这些传感器具有不同的形状,可以安装在不同的机器人上。TACTO 和 DIGIT 通过提供低成本的参考实施,使研究者能够快速原型化多模态机器人操作策略,从而实现基于视觉的触觉感知

PyTouch

类似于 DIGIT 这样的触觉传感器可以处理高维和触觉感知数据,这是传统分析方法难以处理的。机器学习 (ML) 模型可以简化模型的设计和实现,这些模型可以将原始传感器读数转换为高级属性(例如,检测滑动和识别材料)。但是,如果没有 ML 背景,训练一个模型来处理触觉数据是极具挑战性的。为了提高代码的复用率并减少部署时间,Meta 创建了一个名为 PyTouch 的触觉感应 ML 模型和功能库。

研究人员通过 PyTouch 可以跨不同传感器训练和部署模型。它目前提供了一些诸如检测触摸、滑动(slip)、估计物体姿态等基本功能。最终,PyTouch 将与现实世界的传感器和触觉传感模拟器集成,以实现模型的快速验证以及 Sim2Real 功能(能够将在模拟中训练的概念转化为实际应用。)

PyTouch 启用了一种基于学习的方法来构建应用程序,这使得更多的研究者可以使用触觉处理功能。OpenCV 、 Detectron2 等预训练模型库为计算机视觉研究人员提供了最先进的技术,而无需从头开始创建和训练模型。同样的,PyTouch 的目标是授权更广泛的研究社区,使得在其应用程序中使用更多的触觉。

基准和数据集

触觉传感器和模拟器的可用性为多个层级的指标和基准铺平了道路。在硬件层面,现有的基准和数据集,可以用来评估传感器的设计选择;在感知层面,可以使用基准来比较不同的 ML 模型在不同的触觉感知用例中的作用;在机器人控制层面,现在可以在模拟和现实世界中对主动控制任务(例如手动操作)中的触摸进行基准测试等 。尽管研究者在启用系统测量方面取得了进展,但我们应该努力定义和发布可以指导更广泛社区取得更可衡量进展的指标和基准,我们仍然需要仔细调查这些不同的层级以及它们之间的相互作用。

参考链接:
https://ai.facebook.com/blog/reskin-a-versatile-replaceable-low-cost-skin-for-ai-research-on-tactile-perception/
https://ai.facebook.com/blog/teaching-robots-to-perceive-understand-and-interact-through-touch/
产业ReSkinDIGIT开发硬件、模拟器、库、基准测试和数据集MeTA
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

感知层技术

IoT (物联网) 三层结构中的一层,用于识别物体,采集信息等感知类的任务;另外两层是应用层(Application layer)和网络层(Network layer)。

OpenCV技术

OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~