轻舟智航罗晨旭、杨晓东作者

3D物体检测、行为预测和运动检测全涵盖,一文解析激光雷达中时序融合的研究现状和发展方向

近年来,时序信息融合在激光雷达中的研究和应用吸引了一些学者的注意,领域内也涌现出了一些突出的研究工作。在本文中,作者重点介绍了时序融合在 3D 物体检测,以及行为预测和运动检测方面的几篇顶会论文,进而对激光雷达中时序融合这一前沿方向展开简单的梳理和总结。通过本文,作者希望学界可以更加关注该领域的进展和应用。

在自动驾驶领域,基于激光雷达 (LiDAR) 的 3D 物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。激光雷达的多帧时序数据,提供了对于检测物体的多视角观测 (multiple views),历史记忆 (history memory),安全冗余 (redundant safty),以及运动特征 (motion kinematics) 等丰富的信息;可用来帮助提高检测速度和精度,并且增加检测结果的可靠性。对于感知的下游模块,例如追踪和预测,时序信息则更为重要。

在传统视频理解领域,时序信息融合研究相对比较成熟,具体方法主要通过后处理 (post-processing) 来建立检测物体间的对应关系 [1,2];借助光流 (optical flow) 跨越多帧来传播高层特征 [3,4];或者利用记忆对准 (memory alignment) 直接融合多帧特征信息 [5,6]。

而相较于视频或者图像,激光雷达的点云非常稀疏,导致对其提取的特征图谱 (feature maps) 也非常稀疏;此外,在点云鸟瞰图 (bird』s eye view) 中绝大多数前景物体如车辆和行人只占据很小的空间范围。所以如何有效融合激光雷达的时序信息对于学术界和工业界仍然是一个开放的问题。

时序融合—3D 物体检测

FaF 是一个具有代表性的考虑激光雷达时序信息的物体检测和行为预测算法,论文《Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net》发表于 CVPR 2018。

论文链接:http://openaccess.thecvf.com/content_cvpr_2018/papers/Luo_Fast_and_Furious_CVPR_2018_paper.pdf

该论文提出了一种结合检测,跟踪和预测于一体的网络结构。通常自动驾驶系统包含检测,跟踪,轨迹预测与规划等模块,下游模块以上游模块的结果作为输入。

但遗憾的是,这样的解决方案存在一个问题,即每个模块的误差会在下游逐步累积,例如误检或漏检的物体会对后续的跟踪与预测带来很大影响,从而造成错误的规划,最终对乘车舒适度甚至安全造成负面影响。

FaF 提出了一种端到端的网络用以同时完成检测,追踪和预测三项任务,从而在一定程度上缓解了各个模块错误的逐级累积。其具体做法是首先将相邻若干帧激光雷达扫描得到的点云转换到同一坐标系下,把每一帧的点云进行体素化 (voxelization);同时为了避免在单帧上使用 3D 卷积及其所引入的计算复杂度,将高度这一维作为通道 (channel),从而将每一帧表示成为一个三维张量以便使用 2D 卷积处理。网络以多帧点云的鸟瞰图作为输入,直接输出当前输入 5 帧的检测结果以及未来 10 帧的预测结果 (如下图所示)。

而对于多帧点云的时序信息,FaF 提出了两种融合方式:早期融合 (early fusion) 和后期融合 (late fusion),具体做法如下图所示。

早期融合(下图 a)对输入的每一帧体素表示采取 1D 时间卷积,空间维度共享权重,将多帧信息合并在一起。这种做法十分高效,可以达到和单帧几乎一样的检测速度;论文中的实验指出,单帧处理需要 9ms,早期融合处理 5 帧需要 11ms;但早期融合的缺点是无法准确地捕捉复杂的运动信息;

后期融合(下图 b)则采取逐级融合的方式,通过 3D 时空卷积逐步将多帧时序信息融合在一起。论文在 Uber 内部数据集上报告的结果显示,后期融合效果最好,但推理时间也相应增加到 30ms。

最近的一篇关于激光雷达时序融合的论文《LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention》收录于 CVPR 2020。

论文链接:https://arxiv.org/pdf/2004.01389.pdf

该论文首先利用图神经网络 (graph neural networks) 构建体柱信息传输网络 PMPNet (Pillar Message Passing Network) 从而增加每个体柱特征的感受野 (receptive field) 来增强单帧激光雷达的特征提取。文中进一步提出了结合注意力机制的门控循环卷积 AST-GRU (Attentive Spatio-temporal Transformer GRU) 进行时空建模。

具体来说,AST-GRU 包含两部分:STA (Spatial Transformer Attention) 和 TTA (Temporal Transformer Attention)。STA 关注于前景物体检测,TTA 用以处理运动物体在特征图谱上的对齐,具体操作是通过可变形卷积 (deformable convolution) 来对齐前后两帧特征图谱中的运动物体。该方法的网络结构如下图所示,它在 nuScenes 的 3D 物体检测数据集上相比于单帧算法有较大提升。

时序融合—3D 物体行为预测和运动检测

FaF 的后续工作《IntentNet: Learning to Predict Intention from Raw Sensor Data》收录于 CoRL 2018。

论文链接:http://proceedings.mlr.press/v87/casas18a/casas18a.pdf

IntentNet 在 FaF 的基础上进一步加入动态高精地图作为输入来提供静态 (如车道,交叉口,交通指示牌等) 和动态 (如红绿灯的状态转换) 语意地图 (semantic map)。包含时序信息的动态高精地图为 3D 物体检测,意图分类和轨迹预测提供了丰富的线索。

为了更好的挖掘和利用激光雷达和动态地图的时序信息,如下图所示,IntentNet 的输出端在 FaF 的 3D 物体检测 (detection) 和轨迹预测 (regression) 的基础上加入了行为意图分类 (intention classification,例如左/右转,停/泊车,变道等) 一起进行端到端 (end-to-end) 的训练。

此外,行为意图分类的结果也被连接补充到共享特征 (shared features) 上进行基于行为意图分类的轨迹预测,使得轨迹预测获得了丰富的背景环境信息 (context)。相比于 FaF,IntentNet 的检测和预测的结果均有所提升。

此外,利用时序信息进行物体运动检测是另一个值得关注的方向。这一方向近期有两篇论文发表,《MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps》发表于 CVPR 2020,以及《Any Motion Detector: Learning Class-Agnostic Scene Dynamics from a Sequence of LiDAR Point Clouds》发表于 ICRA 2020。

论文链接 1:https://arxiv.org/pdf/2003.06754.pdf

论文链接 2:https://arxiv.org/pdf/2004.11647.pdf

这两篇论文的核心方法相近,都是利用多帧点云作为输入,通过网络在鸟瞰图上回归物体的运动行为。MotionNet 通过时空金字塔网络 (spatio-temporal pyramid network) 内部的 2D 空间卷积和 1D 时间卷积来实现时空信息的提取和融合,从而实现鸟瞰图上以体柱 (pillar) 为单位的语意和状态分类以及运动检测。Any Motion Detector 则提出自运动补偿层 (ego-motion compensation layer) 并结合循环 2D 卷积 (recurrent convolution) 来实现时序信息的高效融合。

如下图所示,这类方法的优势在于检测激光雷达视野中所有运动的物体,包括训练集中没有见过的物体,这对自动驾驶的安全性十分有意义。目前点云算法对于常见的物体,例如车辆,行人和骑单车的人,具有较高的检测准确率;而对于不常见的物体 (尤其是运动的物体) 和突发状况,其结果往往并不满意。这类方法也为物体检测和感知提供了一种新的思路。

时序融合—总结

本文对于激光雷达的时序融合这一前沿方向进行了简单的梳理和总结。融合时序信息,可以提升对于 3D 物体检测的准确率;而对于 3D 物体的行为预测和运动检测,时序信息则更是必不可少。时序融合同时也为整合自动驾驶系统的感知,跟踪,预测甚至决策等模块提供了信息基础和可能性。

相对于视频理解领域,时序融合在激光雷达中的研究和应用还处于相对早期阶段,希望这一重要方向能够吸引越来越多的研发和工程力量来得以不断推进和完善。

作者简介:

罗晨旭,轻舟智航实习生,约翰·霍普金斯大学(Johns Hopkins University)计算机科学系博士研究生,在CVPR、ICCV等发表过高质量计算机视觉科研文章。

杨晓东,轻舟智航首席科学家、机器学习技术总监,曾任英伟达(NVIDIA)高级科学家,在NeurIPS、CVPR、ICCV、ECCV等发表过多篇重量级计算机视觉科研文章。

轻舟智航(QCraft)成立于美国硅谷,世界前沿的无人驾驶公司,致力于打造适应城市复杂交通环境的“老司机”,将无人驾驶带进现实。专注于为合作伙伴提供城市复杂交通环境下的可量产无人驾驶解决方案。

其核心团队成员来自Waymo、特斯拉、Uber、福特、英伟达等世界顶级公司,实现了无人驾驶关键技术模块的全栈覆盖,现轻舟智航多个岗位正面向全球持续热招中。

[1] W. Han, P. Khorrami, T. L. Paine, P. Ramachandran, M. Babaeizadeh, H. Shi, J. Li, S. Yan, and T. S. Huang. Seq-NMS for Video Object Detection. arXiv:1602.08465, 2016. 

[2] K. Kang, W. Ouyang, H. Li, and X. Wang. Object Detection from Video Tubelets with Convolutional Neural Networks. CVPR, 2016. 

[3] X. Zhu, Y. Wang, J. Dai, L. Yuan, and Y. Wei. Flow-Guided Feature Aggregation for Video Object Detection. ICCV, 2017. 

[4] S. Wang, Y. Zhou, J. Yan, and Z. Deng. Fully Motion-Aware Network for Video Object Detection. ECCV, 2018. 

[5] F. Xiao and Y. J. Lee. Video Object Detection with an Aligned Spatial-Temporal Memory. ECCV, 2018. 

[6] C. Guo, B. Fan, J. Gu, Q. Zhang, S. Xiang, V. Prinet, C. Pan. Progressive Sparse Local Attention for Video Object Detection. ICCV, 2019. 

入门时序信息融合激光雷达
3
相关数据
激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

轨迹预测技术

轨迹预测探索不同交通代理的运动模式,准确预测未来轨迹,帮助自主车辆做出合理的导航决策。

推荐文章
暂无评论
暂无评论~