Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

波士顿动力、特斯拉,你们的劲敌终究还是来了

机器之能报道

编辑:Sia

三个技术关键词:大语言模型、 Sim2Real 和 NeRF 技术,然后“一气呵成”。

视频链接:https://mp.weixin.qq.com/s/-2KcyFJCsioEGRchS3eGug

“潜水”两年后,以色列人形机器人公司 Meetee Robotics 发布了首款双足人形机器人 MenteeBot  原型视频。MenteeBot 身高 1.7 米,体重约 70 公斤,展示了端到端完成任务的能力——走到厨房将水果放到盒子里,然后将盒子放到指定位置。整个流程,导航、运动、场景理解、物体检测、抓取和自然语言理解,一气呵成。

值得注意的是,视频中的 MenteeBot 并不是通过一个命令来完成该任务的。人类首先告诉它去厨房,等机器人到了厨房后,再向它发出收拾水果的指令。机器人能否一次性完成同样的任务还有待观察。不过,Mentee Robotics 也指出,这还不是准备部署的最终版本。

Meetee Robotics 是一家颇有来头的初创公司,核心创始人 Amnon Shashua 是耶路撒冷希伯来大学的计算机科学教授 ,也是全球最大高级驾驶辅助系统( ADAS )供应商 Mobileye 的创始人。Mobileye 曾是特斯拉的核心供应商,2017 年被英伟达以 153 亿美元收购。后来,英特尔又以 167 亿美元的价格将其送到纳斯达克。

Amnon Shashua 现在仍是 Mobileye CEO ,也是好几家知名 AI 公司创始人之一。其中,AI21Labs 作为最早将生成式 AI 带给大众的公司之一,也被视为 OpenAI 的强劲对手。

图片

这位教授的头衔可真多啊.......几乎都站在了技术前沿上

基于这位核心创始人的经历,几乎可以预判 Mentee Robotics 核心技术至少覆盖两个重要领域。一个是生成 AI,当下最令人兴奋的 AI 研究优势就是大语言模型和机器人的结合,他也创建了一家生成式 AI 公司。另一个肯定与计算机视觉有关(想想自动驾驶),MenteeBot 可能仅使用基于视觉的摄像头来感知周围世界。

事实上,也正如 demo 所展示的,由于集成了大型语言模型,MenteeBot  能理解自然语言命令,执行任务,就像一个可以听懂你的话,完成任务的小助理。接下来,由于三维重建技术神经辐射场( neural radiance fields,NeRF )已成为自动驾驶必不可少的关键技术之一,MenteeBot 也毫无悬念地采用了这一技术。有了 NeRF ,机器人就像获得了 "3D 视觉" 能力,在接收到人类命令后,接着像人一样实时感知和理解周围环境,并定位自身,同时规划动态路径以避开障碍物。最后,机器人使用模拟器到现实 ( Sim2Real ) 机器学习方法,将模拟环境下规划的运动通过步态和手部运动应用到现实世界中,走向目的地、完成抓取任务。

Amnon Shashua 表示,机器人的每个层面都集成了 AI。将这些技术无缝集成,MenteeBot  就能够执行完整的任务流程——从理解人类的指令,到感知和分析环境,再到规划和执行任务,一气呵成。

从官方公布的另外两个视频来看,你会发现,心灵手巧是 MenteeBot 另一个特点(如下)。据说,工程团队还开发了专有电机来增加机器人的灵活性。视频中,机器人可以握住并将不同家用物品递给人而不损坏它们,可见手部非常灵活,动作也精准,适合做一些精细的家务活儿。

在下面这个搬运重物的视频中,Mentee Robotics 展示了类似人类的平衡能力和控制力,在搬运重物时会自动调整步态保持平衡,比如侧身行走或者弯曲关节部分。

视频链接:https://mp.weixin.qq.com/s/-2KcyFJCsioEGRchS3eGug

两年前,Amnon Shashua 等人创立了 Mentee Robotics。公司在新闻稿中称,“我们正处于计算机视觉自然语言理解、强大而详细的模拟器,以及从模拟到现实世界方法走向融合的风口浪尖。” 这种融合也构成了打造通用双足机器人的起点,它可以自由在人类环境中行动,做家务,从模仿中快速学习。

除了 Shashua,创始团队还包括 CEO Lior Wolf (也是前 Facebook AI 研究总监)以及 CTO Shai Shalev-Shwartz,他也是以色列耶路撒冷希伯来大学教授、现任 Mobileye CTO。到目前为止,该团队已经帮助该公司筹集了 1700 万美元。

图片Mentee Robotics 联合创始人,包括 CEO Lior Wolf(左);董事长 Amnon Shashua(中)以及首席科学家 Shai Shalev-Shwartz(右)

Mentee Robotics 也在下一盘很大的棋,他们的人形机器人产品将分为两个版本。一个准备进入千家万户,操持家务,能透过自然语言和视觉能力,快速学习新技能。另一个仍然面向工业场景,比如物流仓库。MenteeBot 最多可承载 50 斤左右重的负荷,一次充电可运行长达 5 小时。Mentee Robotics 计划在 2025 年第一季度推出一款可量产的原型。虽然价格成谜,但据说还是“负担得起”。

参考链接

https://www.menteebot.com/


产业波士顿动力机器人人工智能
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

推荐文章
暂无评论
暂无评论~