罗晨旭 作者

一文解析激光雷达中时序融合的研究现状和发展方向

在自动驾驶领域,基于激光雷达(LiDAR)的 3D 物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。

激光雷达的多帧时序数据,提供了对于检测物体的多视角观测(multiple views),历史记忆(history memory),安全冗余(redundant safty),以及运动特征(motion kinematics)等丰富的信息;可用来帮助提高检测速度和精度,并且增加检测结果的可靠性。

对于感知的下游模块,例如追踪和预测,时序信息则更为重要。

在传统视频理解领域,时序信息融合研究相对比较成熟,具体方法主要通过后处理 (post-processing)来建立检测物体间的对应关系 [1,2];借助光流(optical flow)跨越多帧来传播高层特征 [3,4];或者利用记忆对准(memory alignment)直接融合多帧特征信息 [5,6]。

相较于视频或者图像,激光雷达的点云非常稀疏,导致对其提取的特征图谱 (feature maps)也非常稀疏;此外,在点云鸟瞰图(bird’s eye view)中绝大多数前景物体如车辆和行人只占据很小的空间范围。所以如何有效融合激光雷达的时序信息对于学术界和工业界仍然是一个开放的问题。

时序融合—3D物体检测

FaF 是一个具有代表性的考虑激光雷达时序信息的物体检测和行为预测算法。

论文标题:Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net
论文来源:CVPR 2018
论文链接:http://openaccess.thecvf.com/content_cvpr_
2018/papers/Luo_Fast_and_Furious_CVPR_
2018_paper.pdf

该论文提出了一种结合检测,跟踪和预测于一体的网络结构。通常自动驾驶系统包含检测,跟踪,轨迹预测规划等模块,下游模块以上游模块的结果作为输入。

这样的解决方案存在一个问题,即每个模块的误差会在下游逐步累积,例如误检或漏检的物体会对后续的跟踪与预测带来很大影响,从而造成错误的规划,最终对乘车舒适度甚至安全造成负面影响。

FaF 提出了一种到端的网络用以同时完成检测,追踪和预测三项任务,从而在一定程度上缓解了各个模块错误的逐级累积。其具体做法是首先将相邻若干帧激光雷达扫描得到的点云转换到同一坐标系下,把每一帧的点云进行体素化 (voxelization)。

同时为了避免在单帧上使用 3D 卷积及其所引入的计算复杂度,将高度这一维作为通道(channel),从而将每一帧表示成为一个三维张量以便使用 2D 卷积处理。网络以多帧点云的鸟瞰图作为输入,直接输出当前输入 5 帧的检测结果以及未来 10 帧的预测结果(如下图所示)。

对于多帧点云的时序信息,FaF 提出了两种融合方式:早期融合(early fusion)和后期融合(late fusion),具体做法如下图所示。早期融合(下图a)对输入的每一帧体素表示采取 1D 时间卷积,空间维度共享权重,将多帧信息合并在一起。这种做法十分高效,可以达到和单帧几乎一样的检测速度。

论文中的实验指出,单帧处理需要 9ms,早期融合处理 5 帧需要 11ms;但早期融合的缺点是无法准确地捕捉复杂的运动信息。后期融合(下图b)则采取逐级融合的方式,通过 3D 时空卷积逐步将多帧时序信息融合在一起。

论文在 Uber 内部数据集上报告的结果显示,后期融合效果最好,但推理时间也相应增加到 30ms。

最近的一篇关于激光雷达时序融合的论文收录于 CVPR 2020。

论文标题:LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/2004.01389
代码链接:https://github.com/yinjunbo/3DVID

该论文首先利用图神经网络(graph neural networks)构建体柱信息传输网络PMPNet(Pillar Message Passing Network)从而增加每个体柱特征的感受野(receptive field)来增强单帧激光雷达的特征提取。

文中进一步提出了结合注意力机制的门控循环卷积 AST-GRU(Attentive Spatio-temporal Transformer GRU)进行时空建模。

AST-GRU 包含两部分:STA(Spatial Transformer Attention)和 TTA(Temporal Transformer Attention)。STA 关注于前景物体检测,TTA 用以处理运动物体在特征图谱上的对齐,具体操作是通过可变形卷积(deformable convolution)来对齐前后两帧特征图谱中的运动物体。

该方法的网络结构如下图所示,它在 nuScenes 的 3D 物体检测数据集上相比于单帧算法有较大提升。

时序融合—3D物体行为预测和运动检测

FaF 的后续工作收录于 CoRL 2018。

论文标题:IntentNet: Learning to Predict Intention from Raw Sensor Data
论文来源:CoRL 2018
论文链接:http://www.cs.toronto.edu/~wenjie/papers
/intentnet_corl18.pdf 

IntentNet 在 FaF 的基础上进一步加入动态高精地图作为输入来提供静态 (如车道,交叉口,交通指示牌等) 和动态(如红绿灯的状态转换)语意地图(semantic map)。包含时序信息的动态高精地图为 3D 物体检测,意图分类和轨迹预测提供了丰富的线索。

为了更好的挖掘和利用激光雷达和动态地图的时序信息,如下图所示,IntentNet 的输出端在 FaF 的 3D 物体检测(detection)和轨迹预测(regression)的基础上加入了行为意图分类(intention classification,例如左/右转,停/泊车,变道等)一起进行端到端(end-to-end)的训练。

如下图所示,行为意图分类的结果被连接补充到共享特征(shared features)上进行基于行为意图分类的轨迹预测,使得轨迹预测获得了丰富的背景环境信息 (context)。相比于 FaF,IntentNet 的检测和预测的结果均有所提升。


利用时序信息进行物体运动检测是另一个值得关注的方向。这一方向近期有两篇论文发表:

论文标题:MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/2003.06754
代码链接:https://github.com/pxiangwu/MotionNet


论文标题:Any Motion Detector: Learning Class-Agnostic Scene Dynamics from a Sequence of LiDAR Point Clouds
论文来源:ICRA 2020
论文链接:https://arxiv.org/pdf/2004.11647

这两篇论文的核心方法相近,都是利用多帧点云作为输入,通过网络在鸟瞰图上回归物体的运动行为。MotionNet 通过时空金字塔网络(spatio-temporal pyramid network)内部的 2D 空间卷积和 1D 时间卷积来实现时空信息的提取和融合,从而实现鸟瞰图上以体柱(pillar)为单位的语意和状态分类以及运动检测。

Any Motion Detector 则提出自运动补偿层(ego-motion compensation layer)并结合循环 2D 卷积(recurrent convolution)来实现时序信息的高效融合。如下图所示,这类方法的优势在于检测激光雷达视野中所有运动的物体,包括训练集中没有见过的物体,这对自动驾驶的安全性十分有意义。

目前点云算法对于常见的物体,例如车辆,行人和骑单车的人,具有较高的检测准确率;而对于不常见的物体(尤其是运动的物体)和突发状况,其结果往往并不满意。这类方法也为物体检测和感知提供了一种新的思路。

时序融合—总结

本文对于激光雷达的时序融合这一前沿方向进行了简单的梳理和总结。融合时序信息,可以提升对于 3D 物体检测的准确率;而对于 3D 物体的行为预测和运动检测,时序信息则更是必不可少。

时序融合同时也为整合自动驾驶系统的感知,跟踪,预测甚至决策等模块提供了信息基础和可能性。相对于视频理解领域,时序融合在激光雷达中的研究和应用还处于相对早期阶段,希望这一重要方向能够吸引越来越多的研发和工程力量来得以不断推进和完善。

关于作者

罗晨旭,轻舟智航实习生,约翰·霍普金斯大学(Johns Hopkins University)计算机科学系博士研究生,在CVPR、ICCV等发表过高质量计算机视觉科研文章。

杨晓东,轻舟智航高级科学家、机器学习技术总监,曾任英伟达(NVIDIA)高级科学家,在NeurIPS、CVPR、ICCV、ECCV等发表过多篇重量级计算机视觉科研文章。

轻舟智航(QCraft)成立于美国硅谷,世界前沿的无人驾驶公司,致力于打造适应城市复杂交通环境的“老司机”,将无人驾驶带进现实。专注于为合作伙伴提供城市复杂交通环境下的可量产无人驾驶解决方案。

其核心团队成员来自Waymo、特斯拉、Uber、福特、英伟达等世界顶级公司,实现了无人驾驶关键技术模块的全栈覆盖,现轻舟智航多个岗位正面向全球持续热招中。

参考文献

[1] W. Han, P. Khorrami, T. L. Paine, P. Ramachandran, M. Babaeizadeh, H. Shi, J. Li, S. Yan, and T. S. Huang. Seq-NMS for Video Object Detection. arXiv:1602.08465, 2016.
[2] K. Kang, W. Ouyang, H. Li, and X. Wang. Object Detection from Video Tubelets with Convolutional Neural Networks. CVPR, 2016. 
[3] X. Zhu, Y. Wang, J. Dai, L. Yuan, and Y. Wei. Flow-Guided Feature Aggregation for Video Object Detection. ICCV, 2017.
[4] S. Wang, Y. Zhou, J. Yan, and Z. Deng. Fully Motion-Aware Network for Video Object Detection. ECCV, 2018.
[5] F. Xiao and Y. J. Lee. Video Object Detection with an Aligned Spatial-Temporal Memory. ECCV, 2018.
[6] C. Guo, B. Fan, J. Gu, Q. Zhang, S. Xiang, V. Prinet, C. Pan. Progressive Sparse Local Attention for Video Object Detection. ICCV, 2019.
PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论时序融合自动驾驶激光雷达
1
相关数据
Waymo机构

Waymo是Alphabet公司(Google母公司)旗下的子公司,专注研发自动驾驶汽车,前身是Google于2009年开启的一项自动驾驶汽车计划,之后于2016年独立。2017年10月,Waymo开始在美国亚利桑那州的公开道路上试驾。2018年12月,Waymo在凤凰城郊区推出了首个商业自动乘车服务Waymo One。

http://www.waymo.com/
激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

轨迹预测技术

轨迹预测探索不同交通代理的运动模式,准确预测未来轨迹,帮助自主车辆做出合理的导航决策。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

暂无评论
暂无评论~