沈博魁、夏斐、李承澍、Roberto Martín-Martín作者

15个可交互的真实房屋场景,Silvio/李飞飞组开源大型室内场景的模拟环境iGibson

在这项研究中,斯坦福视觉与学习实验室(SVL)Silvio / 李飞飞组的研究者推出了一个全新的模拟环境 iGibson,从而可以为大型真实场景中的交互任务开发机器人解决方案。iGibson 包含 15 个充分可交互、视觉上逼真、依据真实房屋构建的场景,并且可以支持 CubiCasa5K 和 3D-Front 的 8000 余个场景。真正实现了「可交互性」。

近来,面向 AI 和机器人的模拟环境得到了大力发展。仅仅几年前,机器人模拟环境还算是相对稀有的产物,但如今,各大学术会议(NeurIPS、CoRL、甚至 ICRA 和 IROS)几乎所有与 AI 机器人相关的论文都会用到模拟环境。那么,模拟环境是如何帮助到 AI 发展的呢?可以归结为以下几点原因:
  • 首先,在机器人领域,机器学习正逐渐发挥越来越大的作用,从而导致了数据需求的迅猛增长 [2] [3] [4] [5]。现实世界中,机器人只能“real-time” 即时地产生数据,但海量的数据需求导致了从现实世界收集数据变得不现实。此外,机器学习需要收集的数据具备多样性,涉及到机器人的随机探索(random exploration)。如果在现实世界中让机器人随机活动,对机器人本身和周遭事物都是有挺大风险的。

  • 其次,在模拟环境变得越来越 robust、逼真(视觉效果和物理引擎)、便捷的同时,算力的增长也导致了大部分机器都可以运行这些模拟环境。因此即便没有足够的资金来购置机器人,也可以通过模拟环境来从事机器人研究。模拟环境降低了机器人研究的准入门槛,让更多的人能推进该领域的发展。

  • 最后,随着关于各种机器人任务(例如导航、抓握、操作等)的论文数量不断增长,一个问题也日渐凸显:机器人领域需要可复现的基准(repeatable benchmark)。一个成熟的学科需要能简洁、可靠地复现实验结果,这样才能让不同的方法理论得到有效地对比。与现实世界相比,在模拟环境中实现可复现的基准要容易许多。

然而,当前结合物理模拟与机器人任务的模拟环境往往局限于一小类任务,并且仅包含 clean 和小型场景。包含家庭和办公室等大型场景的少数模拟环境要么无能力改变场景,仅侧重于导航性能,如 Habitat;要么使用游戏引擎或者简化的交互模式,如 AI2Thor、VirtualHome。所以,在处理那些需要与场景进行丰富交互的任务而言,这些模拟器不支持端到端感觉运动控制回路的开发,也就难以完成此类任务。此外,简化的交互模式也导致很难将可学得的交互策略转换为可执行的真实机器人指令。

基于如上这些想法,来自斯坦福视觉与学习实验室(SVL)的研究者开发了 iGibson 以用来训练和测试 interactive(可交互的)AI 智能体 iGibson。

那么,iGibson 的特殊点在哪里呢?首先我们先来区分一下这两个概念:
  1. Physics simulator (物理引擎): 物理引擎可以计算不同行为对现环境产生的物理影响。比如对一个物体施加一个力的后果,或者对于水流的模拟。随着计算机图形学的发展,现在有许多成熟的物理引擎。其中在机器人领域最为突出的是 Bullet, PyBullet, MuJoCo, Nvidia PhysX and Flex, UnrealEngine, DART, Unity, and ODE 等。

  2. Simulation environment (模拟环境): 模拟环境是一个整体框架,包含多个元件:物理引擎、渲染引擎、模型(包括场景、物体、机器人)等。我们可以用模拟环境模拟一个给定的任务,并用它来研究其解决方案。

那么,对一个研究人员而言,想解决什么任务或想研究什么课题就决定了用什么模拟环境,所谓工欲善其事,必先利其器。对 iGibson 而言,我们想研究的是:基于视觉信号,机器人如何在大型真实场景(如一整间公寓)中解决需要与环境互动的任务。
  • 论文链接:https://arxiv.org/pdf/2012.02924.pdf

  • 项目地址:https://github.com/StanfordVL/iGibson/releases/tag/1.0.0

  • 网站地址:http://svl.stanford.edu/igibson/

  • pip 地址:https://pypi.org/project/gibson2/

  • doc 地址:http://svl.stanford.edu/igibson/docs/

  • 英文版 blog 地址:https://ai.stanford.edu/blog/igibson/

与现有模拟引擎的对比

已有的模拟引擎无法支持我们想研究的任务,即可以真实地在大型场景中进行物理互动。基于固定机械臂的模拟环境(如 meta-world, RLBench, RoboSuite, DoorGym)并不包含真实的场景,从而不支持需要在室内导航的任务。为室内导航开发的模拟环境(包括我们之前开发的 Gibson v1 和 Habitat)虽然可以解决视觉导航(visual navigation)和视觉语言导航(visual language navigation),但所包含的场景为三维重建的静止 mesh 模型。这意味着整个场景被封存在了重建时的位置,物品无法移动,机器人也不能与场景进行交互。

除此之外,例如 Sapien, AI2Thor, ThreeDWorld (TDW)的一些模拟环境开始逐渐支持场景级的交互任务。Sapien 侧重的问题是与铰接(articulated)物体的互动(如门、柜等)。TDW 提供高质量的声音、形变、液体模拟(基于英伟达的 Flex 物理引擎)。但 Sapien 和 TDW 均不提供大型场景模型,从而不支持有关大型场景的任务研究。AI2Thor 虽包含了可互动的场景,但互动为脚本化的符号交互,把现实中连续的互动和变化离散化了—当物体满足一个先觉条件,agent 可以发出一个指令,从而这个物体进入其下个状态。例如,一个冰箱的敞开程度本应是连续值,但现在只有 “开” 和“关”两个状态。AI2Thor 之后出现了 RoboThor,但其只提供简单的传感器与一种机器人 LoCoBot 的模拟。受限于 LoCoBot 的技术限制与环境的离散化,机器人无法在模拟环境内学习并解决复杂的交互任务。

我们想要研究的任务是复杂的、long-horizon(长线)、 mobile manipulation(移动操作)任务,例如:收拾房间、找寻物品等。为了研究可以落地到现实世界的解决方案,模拟可真实交互的大型场景变得尤为重要。

iGibson 的一些功能

iGibson 最重要的功能是 interactivity(可交互性),即构建可以真实交互的大型场景。为此,我们实现了如下关键功能:
  • 15 个充分可交互、视觉上逼真、依据真实房屋构建的场景。其中所有物体可真实交互,包含了材料与动力学信息;

  • 可支持 CubiCasa5K[6]的 8000 余个场景。

  • 真实的传感器信号模拟,包括:RGB (基于物理渲染引擎(Physics-based renderer)),深度图,1 束或 16 束的激光雷达,语义 / 实例 / 材料分割图,光流,场景流等;

  • 内置运动规划算法,用于规划机器人底座的移动(在环境中导航)与机械臂的移动(抓取操纵物体)。

  • 内置域随机化功能,可随机替换 visual textures (视觉图像)、材料与动力学信息、物体实例。由此,我们可以产生出无穷无尽的随机环境用于训练与测试。

  • 人机交互系统,可为机器人提供人工示范。

iGibson 功能的一些应用

我们在论文中展示了这些功能的用处,例如:iGibson 的光学雷达模拟可以帮助 agent 迁移到真实场景

iGibson 场景的充分可交互性可以帮助预训练机器人视觉,从而加速机器人学习并完成复杂的交互任务。

用 iGibson 解决更复杂的机器人任务

上述的 iGibson 功能能帮助人们更好的开发大型场景交互任务的解决方案。我们认为,其中一个很重要的问题是 Interactive Navigation (交互导航)。在这个任务中,agents 不仅需要导航,也需要改变其环境(如开门、移开障碍物)。这种需要改变环境的导航是在现实场景中最常见的。

为了在 iGibson 模拟环境中解决这个任务,我们开发了一套分层强化学习(hierarchical reinforcement learning)算法来决定 agent 的具体动作(当需要交互时用机械臂,当需要移动时用底座,也可同时利用机械臂和底座 [8]。

此外我们也提出了一个结合了运动规划算法的解决方案:算法来指定下个交互应该在何处发生,运动规划会基于此计算一条符合运动学且避障的轨迹 [9] 。

但我们认为这只是 iGibson 潜力的冰山一角。目前我们实验室 SVL(Stanford Vision and Learning Lab)有许多的项目在使用 iGibson,来提出、攻克各种各样的交互任务。

总结

我们认为模拟环境有极大的潜力来帮助研究人员解决机器人与 AI 的各种问题。iGibson 是一个完全开源的、面向大型场景交互任务的模拟环境。我们真心希望 iGibson 能为机器人与 AI 的研究做出贡献。

注:关于 Gibson: iGibson 的名字来源于心理学、认知科学泰斗 James J. Gibson [1904-1979]。Gibson 生前提出了许多开创性的想法,包括关于知觉的新概念:
  1. 知觉是一个生态(ecological)的过程,即本体不应从其所处的生态环境中剥离出去;

  2. 知觉是一个动态(active)的过程,即知觉需要交互和主观能动性。

在当时,主流学说认为知觉是一个被动接受并处理的过程。Gibson 的观点则相反,认为 agents 是在与环境的交互中主动寻求、而不是被动接受信息。Gibson 也提出了 “affordance”(承担特质)的概念:环境给予 agent 的行动可能,例如门提供“打开” 的功能,椅子提供 “支撑” 的功能。我们同事是这样概括 Gibson 先生的 research 的:“ask not what’s inside your head, but what your head is inside of” (不要光注重于你脑中的世界,请着眼于你所处的世界)。

参考

  1. iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes", by Bokui Shen*, Fei Xia*, Chengshu Li*, Roberto Martín-Martín*, Linxi Fan, Guanzhi Wang, Shyamal Buch, Claudia D'Arpino, Sanjana Srivastava, Lyne P. Tchapmi, Micael E. Tchapmi, Kent Vainio, Li Fei-Fei, Silvio Savarese. (*equal contribution) 

  2. Andrychowicz, OpenAI: Marcin, et al. "Learning dexterous in-hand manipulation." The International Journal of Robotics Research 39.1 (2020): 3-20.

  3. Rajeswaran, Aravind, et al. "Learning complex dexterous manipulation with deep reinforcement learning and demonstrations." Robotics: Science and Systems, 2017

  4. Peng, Xue Bin, et al. "Sfv: Reinforcement learning of physical skills from videos." ACM Transactions on Graphics (TOG) 37.6 (2018): 1-14.

  5. Zhu, Yuke, et al. "robosuite: A modular simulation framework and benchmark for robot learning." arXiv preprint arXiv:2009.12293 (2020).

  6. Kalervo, Ahti, et al. "Cubicasa5k: A dataset and an improved multi-task model for floorplan image analysis." Scandinavian Conference on Image Analysis. Springer, Cham, 2019.

  7. Fu, Huan, et al. "3D-FRONT: 3D Furnished Rooms with layOuts and semaNTics." arXiv preprint arXiv:2011.09127 (2020).

  8. Li, Chengshu, et al. "Hrl4in: Hierarchical reinforcement learning for interactive navigation with mobile manipulators." Conference on Robot Learning. PMLR, 2020.

  9. Xia, Fei, et al. "Relmogen: Leveraging motion generation in reinforcement learning for mobile manipulation." arXiv preprint arXiv:2008.07792 (2020).


知乎链接:https://zhuanlan.zhihu.com/p/334643909?utm_source=wechat_session&utm_medium=social&utm_oi=75825684676608&utm_content=group3_article&utm_campaign=shareopn

理论模拟环境机器人技术
相关数据
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

运动规划技术

运动规划(也被称为导航问题或钢琴搬运工的问题)是机器人的一个术语,用于将期望的运动任务分解成离散的运动,以满足运动的限制,并可能优化运动的某些方面。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

分层强化学习技术

分层强化学习是强化学习领域中的一个分支。传统强化学习通过与环境的交互,进行试错(trial-and-error),从而不断优化策略(policy)。但是强化学习的一个重要不足就是维数灾难 (curse of dimensionality),当系统状态(state)的维度增加时,需要训练的参数数量会随之进行指数增长,这会消耗大量的计算和存储资源。 分层强化学习将复杂问题分解成若干子问题(sub-problem),通过分而治之(divide and conquer)的方法,逐个解决子问题从而最终解决一个复杂问题。这里的子问题分解有两种方法:①所有的子问题都是共同解决被分解的任务(share tasks);②不断把前一个子问题的结果加入到下一个子问题解决方案中(reuse tasks)。分层强化学习核心思想是通过算法结构设计对策略(policy)和价值函数(value function)施加各种限制(constraints),或者使用本身就可以开发这种限制的算法。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

视觉语言导航技术

视觉语言导航(VLN)是指在真实的3D环境中引导智能体执行自然语言指令的任务。

暂无评论
暂无评论~