参与张倩 杜伟 王淑婷

告别「五毛」仿真环境:百度增强现实自动驾驶仿真系统登上 Science 子刊

传统的自动驾驶仿真环境都是根据游戏引擎或高保真计算机图形创建的,这种环境缺乏现实世界图像的丰富性和真实性,训练效果有限,扩展性差、成本高。为弥补这一短板,百度开发了一个增强现实的全新自动驾驶系统,利用激光雷达和相机扫描得到的街景图像合成仿真环境。这一研究论文刊登在 3 月 27 日的《Science》子刊「Science Robotics」上。

链接:http://robotics.sciencemag.org/content/4/28/eaaw0863

仿真系统对自动驾驶技术的发展和验证来说至关重要。当前流行的最佳仿真方法利用游戏引擎或高保真计算机图形(CG)模型来创建驾驶场景。但是,创建 CG 模型和车辆运动(模拟对象)依然需要人工操作,这样做不仅成本高昂且耗费时间。此外,CG 图像依然缺乏现实世界图像的丰富性和真实性,使用 CG 图像进行训练也会导致性能下降。

本文中,百度展示了一种增强现实自动驾驶仿真系统(AADS)。其构想是通过模拟交通流来增强现实世界图像,进而创建逼真的仿真图像和渲染。更具体地说,百度使用激光雷达(LiDAR)和相机扫描街景。根据获得的轨迹数据,为汽车和行人生成了看似合理的交通流,并将其合成到背景中。合成图像也可以基于不同视角和传感器模型(相机或 LiDAR)进行再合成。生成的逼真图像添加了完整注释,并且可用于从感知规划自动驾驶系统训练和测试。

百度通过检测、分割和预测等一系列自动驾驶任务说明了系统设计原理并验证了其算法。相较于传统方法,百度团队的方法具有可扩展性和真实性。可扩展性对自动驾驶仿真而言极其重要,同时他们认为在虚拟环境中无法真实地捕捉现实世界的复杂性和多样性。百度增强现实方法结合了虚拟环境的灵活性(如车辆运动)和真实世界的丰富性,从而实现了有效模拟。

引言

近年来,自动驾驶汽车已经引起了研究人员、风险资本家和普通民众的大量关注。自动驾驶汽车预计会在安全性、机动性和环境问题方面带来巨大的社会效益,因而引起了全世界人民的关注。但是,鉴于近来出现的自动驾驶汽车交通事故,要满足自动驾驶汽车相关的高标准和预期很明显还有很长的一段路要走。

安全性是自动驾驶汽车的核心要求。有人认为自动驾驶汽车必须在具有挑战性的条件下接受数亿英里的驱动测试,以证明其在减少伤亡方面的统计可靠性。但即使是在最激进的评估模式下,这也需要数十年的道路测试。用于验证自动驾驶汽车安全性的新方法和度量正在开发。

仿真系统可能是一种有效的解决方案,此类系统在执法、防御和医疗训练等领域很常见。自动驾驶的仿真可以实现两个目的:其一,测试和验证自动驾驶汽车在环境感知、导航和控制方面的性能;其二,生成大量有标签的训练数据以训练深度神经网络机器学习方法。计算机视觉领域近期已采纳了第二个目的。

生成这种模拟器的最常见方法是结合计算机图形、物理建模和机器人运动规划技术来构建一个合成环境,然后在该环境中对运动的车辆进行动画制作和渲染。最近开发了很多模拟器,如英特尔的 CARLA、微软的 AirSim、英伟达的 Drive Constellation 以及谷歌/Waymo 的 CarCraft 等。

尽管所有这些模拟器取得了当前最佳的合成渲染结果,但这些方法很难在现实世界中部署。一个主要障碍在于对高保真环境模型的需求。创建逼真 CG 模型的成本高得离谱。所以,来自这些模拟器的合成图像具有明显的 CG 渲染外观和感觉,即游戏或者虚拟现实系统质量。

此外,汽车和行人等运动障碍的动画制作往往照本宣科,缺乏真实场景的灵活性和真实性。另外,这些系统无法生成城市环境中包含车辆、行人或自行车的不同场景。

百度在文中介绍了一种数据驱动的端到端自动驾驶仿真方法:增强现实自动驾驶仿真系统 AADS。该方法通过模拟交通流来增强现实世界图像,进而创建逼真的、媲美现实世界渲染的仿真场景。

图 1 显示了 AADS 系统的管道以及主要的 F1 输入和输出。百度特别建议使用激光雷达(LiDAR)和相机来扫描街景。百度将输入数据分解为背景、场景照明和前景目标。百度还提出一种视图合成技术,从而能够在静止背景下改变视图。前景车辆采用三维(3D)CG 模型。

借助于准确估计的室外照明,3D 车辆模型、计算机生成的行人以及其他运动物体可以重新定位并渲染回背景图像中,以创建逼真的街景图像,使它们看起来像是从行车记录仪中捕捉到的一样。此外,合成对象的布局和位移等模拟生成的交通流基于捕捉到的、看起来自然的现实世界车辆轨迹,并且具有现实世界场景的复杂性和多样性。

图 1:AADS 系统的输入、处理管道和输出。上:数据集的输入。虚线之间显示了 AADS 的管道,包含数据预处理、新背景合成、轨迹合成、移动目标的增强和 LiDAR 模拟。下:AADS 系统的输出,包含合成的 RGB 图像、一个 LiDAR 点云和带有真实注释的轨迹。

与传统基于 VR 或基于游戏引擎的自动驾驶车辆模拟系统相比,AADS 提供了更准确的端到端模拟能力,不需要昂贵的 CG 模型或繁琐的程序来定义交通流。因此该系统可以大规模应用,包括训练和评估新的自动驾驶车辆导航策略。

AADS 成功的关键是 3D 场景扫描图像和车辆轨迹数据的广泛可用性,二者在新的交通场景图像自动生成中都是必需的。百度还将开放部分为开发和评估 AADS 系统收集的真实世界数据。这些数据都是由专业标注服务商标注过的。除了 AADS 之外,这些数据还可能用于与感知规划相关的许多任务,以推动该领域研究的进一步发展。

本文的技术提升表现在以下几个方面:

  • 提出了一个用于自动驾驶模拟的数据驱动算法:利用扫描得到的街景图和真实的轨迹可以自动合成逼真图像和仿真移动模式。这种扫描到模拟的直接通道几乎不需要人工干预,就可以在闭环仿真环境中随时随地对自动驾驶汽车进行大规模测试。

  • 提出了一种视图合成方法,仅使用少量图像就可以实现视图插值和外推:与之前的方法相比,它可以生成噪点更少的高质量图像。

  • 提出了一套新的数据集,包括最大的交通轨迹集和最大的、具有像素/点级别注释的 3D 街景数据集:所有图像都是在车辆密集、路况复杂的都市捕捉到的。这种拥堵的城市交通环境给自动驾驶提出了重大挑战。

图 2:ApolloScape 数据集及其扩展。上:ApolloScape 与其他流行数据集的对比。下左:RGB 图像、注释和点云(从上到下);下右:数据集中一些有标记的交通轨迹。

图 3:深度提取的视图合成结果和有效性。A 和 B:数据集中的原始 RGB 图像和深度图像。C 到 E:过滤和完成之后的深度提取。F 和 G:在 (H) 中使用初始和提取深度以及近视图进行视图合成的结果。I 到 K:利用 Liu 等人、Chaurasia 等人以及百度的方法进行视图合成的最终结果。

图 5:RGB 图像增强评估。左边的四张图像是从 CARLA(A)、VKITTI 数据集(B)、百度的 AADS-RGB 数据集(C)和测试数据集 CityScapes(D)中选取的。右边的条形图显示了评估结果。

图 6:LiDAR 模拟评估。(A)用于实时实例分割的数据集大小和类型(真实或模拟)评估。(B)不同对象放置方法的评估结果。(C)使用实例分割的真实数据增强评估(均值掩码 AP)。

图 8:新型视图合成管道。A:用四张最近的推理图像合成 D 中的目标视图。B:通过深度代理(proxy)将四幅参考图像合成到目标视图中。C:采用拼接方法得到完整的图像。D:新视图的最终结果是经过后处理后合成的,如孔的填充和颜色的混合。

方法

AADS 用扫描的真实图像来进行 AQ63 模拟。百度的目标是在扫描的场景中用新的轨迹来模拟新的车辆和行人。为此,在模拟数据之前,AADS 应该从扫描的 RGB 图像和点云中移除运动目标,如车辆和行人。运动物体的自动检测和移除本身就构成了一个完整的 AQ64 研究课题;幸运的是,最近的数据集都提供了 RGB 图像的语义标签,包括点云。

通过使用 ApolloScape 数据集中的语义信息,百度移除了特定类型的目标,如汽车、自行车、卡车和行人。移除这些运动目标后,RGB 图像和点云上出现了无数的孔洞,必须小心地填补这些孔洞才能为 AADS 生成完整而干净的背景。百度使用最新的 RGB 图像修复方法来填补图像中的孔洞。该方法使用语义标签来指导基于学习的修复技术,从而达到可接受的图像质量。

给定合成的背景图像,可以把任何 3D CG 模型放在背景上,然后将其渲染至图像空间中以生成新的合成模拟图像。但是,要使合成图像逼真(接近真实图像),必须首先估计背景图像中的光照度。这样 AADS 才能渲染出背景和车身上阴影一致的 3D CG 模型。百度根据论文 (37) 中的方法解决了户外光照估计问题。

此外,为了进一步提升合成图像的真实性,AADS 还提供了一个可选特性,通过从真实图像中抓取纹理来增强 3D CG 模型的外观。具体而言,给定一个没有移除汽车的 RGB 图像,检索相应的 3D 汽车模型并使用论文 (38) 中的方法将这些模型与输入图像对齐。与 (39) 类似,百度使用了对称先验来根据对齐的真实图像迁移和完成 3D CG 模型的外观。

基于 AADS 系统,百度同时发布了两大公开数据集,即 ApolloCar3D 和 TrafficPredict。这两个数据集是百度 ApolloScape 开源项目的一部分,其中 ApolloCar3D 数据集包括超过六万车辆的实例,配有高质量的三维 CAD 模型和语义关键点。TrafficPredict 是一个包括 1000 公里的运动物体的轨迹数据集,包括时间戳,车辆 ID,类别,位置,速度,朝向等信息。

另外,百度主持的 CVPR 自动驾驶研讨会将于 2019 年 6 月举行,此次研讨会将重点关注自动驾驶中的多帧感知、预测和规划,同时举办全球范围内的挑战赛事。

研讨会网址:http://wad.ai/

理论计算机视觉自动驾驶百度
1
相关数据
Waymo机构

Waymo是Alphabet公司(Google母公司)旗下的子公司,专注研发自动驾驶汽车,前身是Google于2009年开启的一项自动驾驶汽车计划,之后于2016年独立。2017年10月,Waymo开始在美国亚利桑那州的公开道路上试驾。2018年12月,Waymo在凤凰城郊区推出了首个商业自动乘车服务Waymo One。

http://www.waymo.com/
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
图像修复技术

暂无评论
暂无评论~