Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

文龙作者

MIT团队最新研究,靠LiDAR和2D地图实现端到端自动驾驶

提到自动驾驶,大家自然而然地就会想到「视觉算法」派和「激光雷达」派的争论,前者依靠摄像头的纯视觉感知,后者则强调激光雷达(LiDAR)的精准测距。据了解,2021年配有激光雷达的车型将会达到23款,但多数是作为高分辨率影像信息的一种补充。

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。对依靠 LiDAR 的自动驾驶技术来说,这项研究意义重大。

图片基于激光雷达的端到端导航。(来源:MIT CSAIL)

自动驾驶需要对车辆进行实时控制,这就需要端到端学习,可以直接从原始传感器数据产生实时决策进而自动控制。此外,现实世界中可部署的自动驾驶系统不仅需要准确、高效,还需要鲁棒性,而端到端模型对扰动有着较高的敏感性。

CSAIL 先前的工作表明,仅使用由摄像机的视觉数据生成的稀疏地形图和粗略的定位即可执行点对点导航。目前,计算机视觉还无法很好地应对照明等环境变化产生的影响,相反, LiDAR 传感器可以提供更准确的距离(深度)信息。

然而, LiDAR 的一个缺点是三维数据所带来的庞大数据量和计算量。例如,典型的64通道传感器每秒可产生超过200万个数据点;推理 3D 模型所需的计算量是推理 2D 图像的14倍。但是,将数据折叠为 2D 格式又会导致大量信息的丢失。

因此, MIT 团队基于稀疏卷积内核和硬件感知模型设计了名为 Fast-LiDARNet 的神经网络。通过主动降低点云的采样率,该神经网络能够高效地在完整的 LiDAR 点云上学习,做出实时控制决策。

在现实世界中,瞬时决策会因为传感器的问题出现外分布(out-of-distribution)的情况。针对这一问题,MIT 团队提出「混合证据融合」(HybridEvidential Fusion)的方法,该方法通过证据深度学习简单而直接地预测出决策的不确定性,再通过加权的方式智能地融合控制决策,实现可靠的转向操作。

图片高效且强大的基于LiDAR的端到端导航框架。(来源:论文)

研究人员在全尺寸车辆上评估了他们基于激光雷达的端到端自动驾驶系统,展示了出色的车道稳定以及导航功能。该系统显着提高了鲁棒性,减少了因失控导致的人为接管次数。

多项技术保证自动化系统的优势

效率的提升保证了自动驾驶的精准控制。论文的共同一作、 MIT 在读博士生刘志健表示:「我们从算法和系统角度优化了我们的解决方案,与现有的 3D 激光雷达方法相比,累计加速了9倍之多。」

速度的提升一方面归功于端到端模型,另一方面归功于稀疏卷积内核。这个内核是源于该团队先前提出的 3D 点云计算模块稀疏点云-栅格卷积(SPVConv),通过在稀疏张量 (Sparse Tensor) 表示下利用三维稀疏卷积 (3D SparseConvolution) 来处理邻点信息,即使在室外较大的场景中,也可以保留精细的细节,同时大大减少了计算量,缩短了计算时间。

MIT 团队的目标一直是「实现对新环境中的驾驶具有鲁棒性的自主导航」。从2018年开发的允许无人驾驶汽车在没有3D地图的情况下在从未有过的道路上行驶的 MapLite ,到2019年的仅使用简单的地图和相机视觉数据使汽车在新的复杂环境中自动驾驶的端到端机器学习系统,再到如今基于 LiDAR 数据的端到端自动驾驶系统,该团队初步实现了他们的目标。

图片基于机器学习的端到端自动驾驶系统架构图。(来源:论文)

鲁棒性的提高保证了新系统在现实世界中是可行的。研究人员表明,有了新的混合证据融合策略,他们的系统减少了测试时驾驶员不得不接管汽车控制的频率,甚至可以应对严重的传感器故障。MIT 教授 Daniela Rus 说:「通过基于模型不确定性的融合控制预测,该系统可以应对突发事件。」

想象一下,当你开车穿过隧道,在出隧道的那一瞬间,突然暴露在阳光下,由于眩光,视线可能会出现短暂丢失。自动驾驶汽车中的摄像头以及天气条件较差时的激光雷达传感器也会出现类似的问题,而新系统就可以很好地解决这个问题。通过在做出决策时赋予该预测权重,即使出现传感器数据不准确的情况(例如,穿出隧道),系统也可以忽略这些不应信任的预测。

图片仅用 LiDAR 的模型的真实评估,红点出息为人为干预控制的情况。(来源:论文)

高级别自动驾驶的未来

未来的自动驾驶汽车将包括收集彩色数据的摄像机、用于高分辨率近场感知的 LiDAR和用于在恶劣天气下进行远距离感知的 RADAR 。在这套传感器组成中,LiDAR 将是最有价值、最重要的。

要实现(L3以上)高级别自动驾驶技术,最关键的零部件非「激光雷达」莫属——这几乎已经成了一个自动驾驶工程界默认的「公理」。3D 构建能力与准确的深度知觉,决定了激光雷达在工业勘测与自动驾驶界不可撼动的重要地位。

激光作为一种平行光,即便光线射出后遇到障碍物的阻挡,其传播也会保持准直。这也就意味着,无论是你近在眼前,还是100米开外,它都能聚焦到你身上。无数激光点根据物体距离的不同,在平面上打出深浅不一的线性阴影,形成了 3D 点云图,很像铅笔勾勒出的速写画。

由于激光雷达仍存在着一些尚未解决的问题,目前车载的激光雷达传感器还未得到很好地应用。但是, MIT 团队这项最新研究可以让我们看到未来实际应用的希望。无论是速度、准确度,还是鲁棒性,多项技术的融合展示了出色的自动驾驶能力,相信也能为从业人员提供一些应用灵感。下一步,该团队计划继续扩展其系统,以增加现实世界中的复杂性,包括不利的天气条件以及与其他车辆的动态交互。

论文链接:https://arxiv.org/abs/2105.09932

参考内容:

https://le2ed.mit.edu/

https://news.mit.edu/2018/self-driving-cars-for-country-roads-mit-csail-0507

https://news.mit.edu/2019/human-reasoning-ai-driverless-car-navigation-0523

https://spvnas.mit.edu/

https://mp.weixin.qq.com/s/3Y0GCq-jvIyOdF9-APHl2g

产业MIT鲁棒性自动驾驶
1
相关数据
激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐文章
哈哈