秒杀高精地图?MIT&丰田称仅靠简单地图和视觉就可让无人车适应新环境

上周,机器人领域顶级会议 ICRA 2019 公布了最佳论文奖项,共有三篇论文入围该奖项。其中一篇是来自 MIT 和丰田研究院的《Variational End-to-End Navigation and Localization》,这项工作探索了如何使自动驾驶汽车具备人类推理能力,即仅凭借简单地图和视觉数据就可以适应新型复杂环境中的路线。

为了将更加类似人类的推理能力赋予自动驾驶汽车,MIT 创建了一个系统,可使自动驾驶汽车在仅使用简单地图和视觉数据的情况下,在新型复杂环境中运行。

人类司机很擅长在之前未见过的道路上驾驶汽车,他们使用的是观察能力和简单的工具。人类会将周围事物与 GPS 设备提供的信息进行匹配,以确定自己所在位置和目的地位置。而这项对人类很基础的推理能力对自动驾驶汽车来说却非常困难。自动驾驶汽车在每个新区域都必须先定位和分析所有新道路,而这会花费大量时间。自动驾驶系统还依赖于 3D 扫描生成的复杂地图,而这在运行时造成了极大的计算成本。

MIT 和丰田研究院合作的研究《Variational End-to-End Navigation and Localization》介绍了一种自动控制系统,该系统仅仅利用来自视频摄像头和简单 GPS 地图的数据,即可「学习」人类司机在小型区域开车的驾驶模式。训练得到的系统可以控制自动驾驶汽车像人类司机一样,在全新区域内沿着规划路线行驶。

研究者扩展了能够理解地图的端到端驾驶网络。他们定义了一个新的变分网络,该网络能够根据环境的原始摄像头数据和更高级路线图进行学习,以预测可能的控制指令的完整概率分布,以及能够在地图内指定路线上导航的确定性控制指令。

此外,受人类驾驶员可以进行粗略定位的启发,研究者根据地图和观察到的视觉道路拓扑之间的对应关系,制定了如何使用其模型来定位机器人的方案。研究者在真实驾驶数据上评估了该算法,并推断了在不同类型的丰富驾驶场景下推断的转向命令的稳健性。

该研究提出的变分端到端模型。

与人类司机类似,该系统还可以监测地图和道路特征之间不匹配的地方。这有助于系统确定其位置、传感器或地图是否准确,从而纠正汽车的行驶路线。

最初训练系统时,人类操作员控制一辆配备多个摄像头和基础 GPS 导航系统的丰田普锐斯自动驾驶汽车,并收集当地郊外街道的数据,包括多种道路结构和障碍物。在自动部署新区域的信息后,该系统可在预先规划好的路线上成功导航。

该研究的第一作者、MIT 学生 Alexander Amini 表示:「使用我们的系统后,你无需预先在每条道路上进行训练,只需下载一张新地图。」该研究的共同作者、CSAIL 负责人 Daniela Rus 表示,「我们的目标是创建一个对新环境具备稳健性的自动驾驶导航系统。例如,当我们训练一辆在城市环境中行驶的自动驾驶汽车时,该系统可以让这辆车在树林中也能顺畅行进,即使这个环境它从来没见过。」

点到点导航

传统的导航系统通过针对定位、绘制地图、目标检测、运动规划和转向控制等任务而定制的多个模块来处理传感器数据。Daniela Rus 组多年来一直致力于研发「端到端」的导航系统,即无需任何专用子模块即可处理输入传感器数据和输出控制指令。

但是,截止到目前,这些模型仅限于在没有实际目的地的情况下安全地沿着道路行驶。在这项研究中,研究者的端到端导航系统可以在新环境中向着目的地行进。为此,研究者训练该系统预测驾驶过程中任意瞬间所有可能控制指令的完整概率分布

该系统使用卷积神经网络(CNN)作为模型的主干。在训练过程中,该系统从人类司机处观察和学习如何驾驶汽车。CNN 将方向盘转动和道路曲率进行关联,其中曲率信息通过摄像头和输入地图获得,并最终学习最适合不同驾驶场景(如直路、十字路口、T 形交叉口、岔口转弯、环形交叉路等)的驾驶指令。

Daniela Rus 表示:「T 形交叉口有很多可选方向,该模型一开始会思考所有可能方向,但是随着它越来越多地观察人类驾驶员的行为,它发现人们要么向左转要么向右转,没人直走。于是『直走』这个选择就被排除了,模型学习到在 T 形交叉口只能左转或右转。」

导航地图又是怎样的?

在测试中,研究者向系统输入一张随机选择路线的地图。驾驶过程中,该系统会从摄像头抽取视觉特征,从而预测道路结构。例如,它可以识别远处的停车标志或路边的停止线,这些特征可以作为十字路口的预告标志。在每一时刻,自动控制系统都会根据其预测的转向指令概率分布,选择最可能的路线行进方式。

研究人员表示,重要的是系统使用的地图易于储存和处理。自动控制系统一般会使用激光雷达扫描器创建大规模的复杂地图,仅存储旧金山一个城市就需要约 4TB 的数据。对于每一个新的目的地,汽车必须创建新的地图,这意味着需要处理大量数据。然而在该研究构建的自动控制系统中,捕捉整个世界的地图也就 40GB 的数据量。

自动驾驶过程中,系统同样会不停地匹配视觉数据和地图数据,并记录不匹配的地方。这样有助于自动驾驶汽车更好地确定它在道路上的位置。如果输入信息相互矛盾,这还能确保汽车在最安全的路线上。例如如果汽车在一条笔直的公路上前行,而 GPS 显示汽车必须右转,那么汽车就会知道到底是继续前行还是停下来。

Amini 说:「在现实世界中,传感器确实会失灵。我们希望建立一个对不同传感器故障具备稳健性的系统,也就是说在接收到这些噪声输入后,系统仍能准确地定位其在道路上的位置和导航。」

模型架构。

实验

研究者在现实场景对该系统进行了训练,并在测试集上对其进行了测试。

使用导航输入进行驾驶

研究者使用一张路线图和 routed、unrouted 地图的转向角度估计展示了该系统的驾驶能力。下图展示了该系统的输入和转向角度的参数分布。routed 和 unrouted 地图中的道路显示为白色。

在新型道路环境中的控制输出。

模型评估。

减少定位不确定性

研究者展示了如何使用算法 1 基于观测到的驾驶方向使用模型定位车辆位置。

算法 1

对后验不确定性改进的评估。

研究者量化了交叉路口附近的后验不确定性减少程度,如下图所示:

交叉路口附近的后验不确定性减少情况。

粗略定位

利用感知的粗略定位。

论文链接:https://arxiv.org/abs/1811.10119

理论丰田高精地图MIT无人驾驶
2
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

运动规划技术

运动规划(也被称为导航问题或钢琴搬运工的问题)是机器人的一个术语,用于将期望的运动任务分解成离散的运动,以满足运动的限制,并可能优化运动的某些方面。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~