Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Allison Whitten作者张倩编辑

李飞飞划重点的「具身智能」,走到哪一步了?

在前段时间的一篇文章中,李飞飞指出了计算机视觉未来的几个重要方向,其中最重要的一个就是具身智能。她认为,具身智能将成为 AI 领域的下一个「北极星问题」之一。那么,具身智能是什么?为什么如此重要?现在发展到什么程度了?这篇文章进行了详细分析。

2009 年,当时在普林斯顿大学工作的计算机科学家李飞飞主导构建了一个改变人工智能历史的数据集——ImageNet。它包含了数百万张有标签的图像,可以用来训练复杂的机器学习模型,以识别图像中的物体。

2015 年,机器的识别能力超过了人类。李飞飞也在不久之后转向了新的目标,去寻找她所说的另一颗「北极星」(此处的「北极星」指的是研究人员所专注于解决的关键科学问题,这个问题可以激发他们的研究热情并取得突破性的进展)。


她通过回溯 5.3 亿年前的寒武纪生命大爆发找到了灵感,当时,许多陆生动物物种首次出现。一个有影响力的理论认为,新物种的爆发部分是由眼睛的出现所驱动的,这些眼睛让生物第一次看到周围的世界。李飞飞认为,动物的视觉不会孤零零地产生,而是「深深地嵌在一个整体中,这个整体需要在快速变化的环境中移动、导航、生存、操纵和改变,」她说道,「所以我就很自然地转向了一个更加活跃的 AI 领域。」



如今,李飞飞的工作重点集中在 AI 智能体上,这种智能体不仅能接收来自数据集的静态图像,还能在三维虚拟世界的模拟环境中四处移动,并与周围环境交互。

这是一个被称为「具身 AI」的新领域的广泛目标。它与机器人技术有所重叠,因为机器人可以看作是现实世界中具身 AI 智能体和强化学习的物理等价物。李飞飞等人认为,具身 AI 可能会给我们带来一次重大的转变,从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务,如制作煎蛋卷。

今天,具身 AI 的工作包括任何可以探测和改变自身环境的智能体。在机器人技术中,AI 智能体总是生活在机器人身体中,而真实模拟中的智能体可能有一个虚拟的身体,或者可能通过一个移动的相机机位来感知世界,而且还能与周围环境交互。「具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,」李飞飞解释说。

这种交互性为智能体提供了一种全新的——在许多情况下是更好的——了解世界的方式。这就相当于,之前你只是观察两个物体之间可能的关系,而现在,你可以亲自实验并让这种关系发生。有了这种新的理解,想法就会付诸实践,更大的智慧也会随之而来。随着一套新的虚拟世界的建立和运行,具身 AI 智能体已经开始发挥这种潜力,在他们的新环境中取得了重大进展。

「现在,我们没有任何证据证明存在不通过与世界互动来学习的智能,」德国奥斯讷布吕克大学的具身 AI 研究者 Viviane Clay 说。


走向完美模拟

虽然研究人员早就想为 AI 智能体创造真实的虚拟世界来探索,但真正创建的时间才只有五年左右。这种能力来自于电影和视频游戏行业对图像的改进。2017 年,AI 智能体可以像在家里一样逼真地描绘室内空间——虽然是虚拟的,但却是字面上的「家」。艾伦人工智能研究所的计算机科学家构建了一个名为 AI2-Thor 的模拟器,让智能体在自然的厨房、浴室、客厅和卧室中随意走动。智能体可以学习三维视图,这些视图会随着他们的移动而改变,当他们决定近距离观察时,模拟器会显示新的角度。


这种新世界也给了智能体一个机会去思考一个新维度「时间」中的变化。西蒙弗雷泽大学的计算机图形学研究员 Manolis savva 说,「这是一个很大的变化。在具身 AI 设定中,你有这些时间上的连贯信息流,你可以控制它。」

这些模拟的世界现在已经足够好,可以训练智能体完成全新的任务。它们不仅可以识别一个物体,还可以与它互动,捡起它并在它周围导航。这些看似很小的步骤对任何智能体来说都是理解其环境的必要步骤。2020 年,虚拟智能体拥有了视觉以外的能力,可以听到虚拟事物发出的声音,这为其了解物体及其在世界上的运行方式提供了一种新的视角。

可以在虚拟世界(ManipulaTHOR environment)中运行的具身 AI 智能体以不同的方式学习,可能更适合更复杂的、类人的任务。

不过,模拟器也有自己的局限。「即使最好的模拟器也远不如现实世界真实,」斯坦福大学计算机科学家 Daniel Yamins 说。Yamins 与麻省理工学院和 IBM 的同事共同开发了 ThreeDWorld,该项目重点关注在虚拟世界中模拟现实生活中的物理现象,如液体的行为以及一些物体如何在一个区域是刚性的,而在另一个区域又是柔性的。

这是一项非常具有挑战性的任务,需要让 AI 以新的方式去学习。


神经网络进行比较

到目前为止,衡量具身 AI 进展的一种简单方法是:将具身智能体的表现与在更简单的静态图像任务上训练的算法进行比较。研究人员指出,这些比较并不完美,但早期结果确实表明,具身 AI 的学习方式不同于它们的前辈,有时候比它们的前辈学得还好。

在最近的一篇论文(《Interactron: Embodied Adaptive Object Detection》)中,研究人员发现,一个具身 AI 智能体在检测特定物体方面更准确,比传统方法提高了近 12%。该研究的合著者、艾伦人工智能研究所计算机科学家 Roozbeh Mottaghi 表示,「目标检测领域花了三年多的时间才实现这种水平的改进。而我们仅通过与世界的交互就取得了很大的进步。」

其他论文已经表明,当你把目标检测算法做成具身 AI 的形式,并让它们探索一次虚拟空间或者随处走动收集对象的多视图信息时,该算法会取得进步。

研究人员还发现,具身算法和传统算法的学习方式完全不同。要想证明这一点,可以想想神经网络,它是每个具身算法和许多非具身算法学习能力背后的基本成分。神经网络由许多层的人工神经元节点连接而成,它松散地模仿人类大脑中的网络。在两篇独立的论文中,研究人员发现,在具身智能体的神经网络中,对视觉信息作出反应的神经元较少,这意味着每个单独的神经元在作出反应时更有选择性。非具身网络的效率要低得多,需要更多的神经元在大部分时间保持活跃。其中一个研究小组(由即将任纽约大学教授的 Grace Lindsay 领导)甚至将具身和非具身的神经网络与活体大脑中的神经元活动(老鼠的视觉皮层)进行了比较,发现具身的神经网路最接近活体。

Lindsay 很快指出,这并不一定意味着具身化的版本更好,它们只是不同。与物体检测论文不同的是,Lindsay 等人的研究比较了相同神经网络的潜在差异,让智能体完成了完全不同的任务,因此他们可能需要工作方式不同的神经网络来完成他们的目标。

虽然将具身神经网络与非具身神经网络相比是一种衡量改进的方法,但研究人员真正想做的并不是在现有的任务上提升具身智能体的性能,他们的真正目标是学习更复杂、更像人类的任务。这是最令研究人员兴奋的地方,他们看到了令人印象深刻的进展,尤其是在导航任务方面。在这些任务中,智能体必须记住其目的地的长期目标,同时制定一个到达目的地的计划,而不会迷路或撞到物体。

在短短几年的时间里,Meta AI 的一位研究主管、佐治亚理工学院计算机科学家 Dhruv Batra 领导的团队在一种被称为「point-goal navigation」的特定导航任务上取得了很大进展。在这项任务中,智能体被放在一个全新的环境中,它必须在没有地图的情况下走到某个坐标(比如「Go to the point that is 5 meters north and 10 meters east」)。

Batra 介绍说,他们在一个名叫「AI Habitat」的 Meta 虚拟世界中训练智能体,并给了它一个 GPS 和一个指南针,结果发现它可以在标准数据集上获得 99.9% 以上的准确率。最近,他们又成功地将结果扩展到一个更困难、更现实的场景——没有指南针和 GPS。结果,智能体仅借助移动时看到的像素流来估计自身位置就实现了 94% 的准确率

Meta AI Dhruv Batra 团队创造的「AI Habitat」虚拟世界。他们希望提高模拟的速度,直到具身 AI 可以在仅仅 20 分钟的挂钟时间内达到 20 年的模拟经验。

Mottaghi 说,「这是一个了不起的进步,但并不意味着彻底解决了导航问题。因为许多其他类型的导航任务需要使用更复杂的语言指令,比如「经过厨房去拿卧室床头柜上的眼镜」,其准确率仍然只有 30% 到 40% 左右。

但导航仍然是具身 AI 中最简单的任务之一,因为智能体在环境中移动时不需要操作任何东西。到目前为止,具身 AI 智能体还远远没有掌握任何与对象相关的任务。部分挑战在于,当智能体与新对象交互时,它可能会出现很多错误,而且错误可能会堆积起来。目前,大多数研究人员通过选择只有几个步骤的任务来解决这个问题,但大多数类人活动,如烘焙或洗碗,需要对多个物体进行长序列的动作。要实现这一目标,AI 智能体将需要更大的进步。

在这方面,李飞飞可能再次走在了前沿,她的团队开发了一个模拟数据集——BEHAVIOR,希望能像她的 ImageNet 项目为目标识别所做的那样,为具身 AI 作出贡献。


这个数据集包含 100 多项人类活动,供智能体去完成,测试可以在任何虚拟环境中完成。通过创建指标,将执行这些任务的智能体与人类执行相同任务的真实视频进行比较,李飞飞团队的新数据集将允许社区更好地评估虚拟 AI 智能体的进展。

一旦智能体成功完成了这些复杂的任务,李飞飞认为,模拟的目的就是为最终的可操作空间——真实世界——进行训练。

「在我看来,模拟是机器人研究中最重要、最令人兴奋的领域之一。」李飞飞说到。


机器人研究新前沿

机器人本质上是具身智能体。它们寄居在现实世界的某种物理身体内,代表了最极端的具身 AI 智能体形式。但许多研究人员发现,即使是这类智能体也能从虚拟世界的训练中受益。

Mottaghi 说,机器人技术中最先进的算法,如强化学习等,通常需要数百万次迭代来学习有意义的东西。因此,训练真实机器人完成艰巨任务可能需要数年时间。


机器人可以在现实世界中不确定的地形中导航。新的研究表明,虚拟环境中的训练可以帮助机器人掌握这些技能以及其他技能。

但如果先在虚拟世界中训练它们,速度就要快得多。数千个智能体可以在数千个不同的房间中同时训练。此外,虚拟训练对机器人和人来说都更安全。

2018 年,OpenAI 的研究人员证明了:智能体在虚拟世界中学到的技能可以迁移到现实世界,因此很多机器人专家开始更加重视模拟器。他们训练一只机械手去操作一个只在模拟中见过的立方体。最新的研究成果还包括让无人机学会在空中避免碰撞,将自动驾驶汽车部署在两个不同大陆的城市环境中,以及让四条腿的机器狗在瑞士阿尔卑斯山完成一小时的徒步旅行(和人类所花的时间一样)。

未来,研究人员还可能通过虚拟现实头显将人类送入虚拟空间,从而缩小模拟和现实世界之间的差距。英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox 指出,机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点,它们必须首先接触并学习如何与人类交互。

Fox 说,利用虚拟现实技术让人类进入这些模拟环境,然后让他们做出演示、与机器人交互,这将是一种非常强大的方法。

无论身处模拟还是现实世界,具身 AI 智能体都在学习如何更像人,完成的任务更像人类的任务。这个领域在各个方面都在进步,包括新的世界、新的任务和新的学习算法。

「我看到了深度学习、机器人学习、视觉甚至语言的融合,」李飞飞说,「现在我认为,通过这个面向具身 AI 的『登月计划』或『北极星』,我们将学习智能的基础技术,这可以真正带来重大突破。」

李飞飞探讨计算机视觉「北极星」问题的文章。链接:https://www.amacad.org/publication/searching-computer-vision-north-stars

原文链接:https://www.quantamagazine.org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/
理论李飞飞具身智能
1
相关数据
寒武纪机构

寒武纪科技是一家AI芯片研发商。致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,同时还为用户提供IP授权、芯片服务、智能子卡和智能平台等服务。

www.cambricon.com
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~