Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

SIGAI作者

从单幅图像到双目立体视觉的3D目标检测算法

一.导言

经典的计算机视觉问题是通过数学模型或者统计学习识别图像中的物体、场景,继而实现视频时序序列上的运动识别、物体轨迹追踪、行为识别等等。然而,由于图像是三维空间在光学系统的投影,仅仅实现图像层次的识别是不够的,这在无人驾驶系统、3604f85d04>增强现实技术等领域表现的尤为突出,计算机视觉的更高层次必然是准确的获得物体在三维空间中的形状、位置、姿态,通过三维重建技术实现物体在三维空间的检测、识别、追踪以及交互。近年来,借助于二维图像层面的目标检测和识别的性能提升,针对如何恢复三维空间中物体的形态和空间位置,研究者们提出了很多有效的方法和策略。

相比图像层面的二维物体检测问题,如何通过图像理解物体在三维空间中的位置通常更加复杂。较为准确的恢复物体的三维信息包含恢复物体表面每个点的三维坐标及三维点之间的关系,计算机图形学中物体三维特征可以表示为重建物体表面的三角化网格和纹理映射,不要求特别精确地场景下,也可以仅仅用三维空间中的立方体表示物体位置。由射影几何学,仅仅依赖一副图像是无法准确恢复物体的三维位置,即使能得到相对位置信息,也无法获得真实尺寸。因此,正确检测目标的3D位置最少需要多个相机或者运动相机组成的立体视觉系统,或者由深度相机、雷达等传感器得到的3D点云数据。

图1:两种不同的3D检测。

左图中,通过检测得到物体三角网格模型。右图中,由图像特征检测3D空间立方体来表示物体在空间中的位置。

对于特定类型目标,基于机器学习的方法使得通过单目相机进行物体3D检测成为可能。原因是特定类型目标往往具有很强的先验信息,因此依靠给真实物体做标注,联合学习物体类别和物体姿态可以大概估计出物体3D尺寸。不过,为了更好的估计物体的3D位置,更好的方法是结合学习的方法充分融合射影几何知识,来计算物体在真实世界中的尺度和位置。

在这篇文章中,将和大家一起回顾一下近年来几个效果较好的3D目标检测算法。针对无人驾驶场景下,如何采用单目相机和双目立体相机实现行人和车辆的3D检测的几个算法进行一些对比和总结。并帮助更好地理解视觉3D目标检测算法的框架和当前主流算法的算法框架和基本原理,如果对本文的观点持有不同的意见,欢迎向我们的公众号发消息一起讨论。

二.3D目标检测算法的分类

通过图像、雷达、深度相机等信号可以检测和识别3D场景信息,从而帮助计算机确定自身和周围物体的位置关系,做出正确的运动交互和路径规划。从相机得到图像信息,需要正确计算图像点和三维点的对应关系,而雷达和深度相机可以直接得到点云或者点的空间位置。按照传感器和输入数据的不同,可以把3D目标检测分为如下几类:

图2:根据输入信号的不同,3D目标检测的分类

从点云获取目标信息是比较直观和准确的3D目标检测方法,由于点的深度数据可以直接测量,3D检测问题本质上是3D点的划分问题,Chen[4]等人通过扩展2D检测算法提出了一些利用点云特征估计物体位置的方法。相比于使用雷达系统或者深度相机,使用摄像机系统成本更低,但是需要进行图像点的反投影,计算点在空间中的位置。除此之外,相比于点云数据,图像恢复深度可以适用于室外大尺度场景,这是普通深度相机所不能达到的。本文将讨论使用图像数据估计特定类型物体在空间中的3D位置。

使用图像数据检测物体的3D空间位置,可以通过首先估算3D点云数据,借助点云检测3D目标的流程来检测3D目标。通过图像数据估算3D点云有多种方法,比如Wang [5]借助于CNN方法来仿真3D点云。也可以通过每个点的深度估计来获取图像的近似3D点云[6, 7]。通过图像数据估计3D点云,在使用已有的3D点云方法来检测3D目标,效率较低,容易出现误差累积。近年来,采用射影几何和机器学习算法结合的方法,较好的提升基于图像的3D检测算法。

由于特定类型物体具有较强的尺寸先验,比如车辆的宽、高、长,往往由车辆类型决定。而观察车辆的角度对于车辆在图像中的外观特征具有很大的关联性,因此,通过收集数据集并进行前期的3D标定,对于学习图像特征到车辆3D属性具有重要的意义。但与单目单幅图像的特定类型3D目标检测,可以采用以深度学习为主的3D预测算法,综合射影几何的原理,得到比较可信的3D检测结果。对于双目立体视觉,进行合理的双目匹配,通过相机之间的相对位置计算,可以得到比单目视觉更强的空间约束关系,因此结合已有的物体先验知识,可能得到比单目相机更准确的检测结果。

对于基于视觉的3D目标检测,如何融合机器学习算法和射影几何约束,对于提升算法性能具有重要的意义。下文从几种单目图像到双目相机进行3D目标检测算法的详细介绍,来说明和讨论如何实现基于图像的3D目标检测

三.单视图像3D目标检测算法介绍

3.1结合回归学习和几何约束的3D目标检测算法

A. Mousavian在CVPR2017提出了一种结合深度神经网络回归学习和几何约束的3D目标(主要针对车辆)检测和3维位置估计的算法[1]。

在论文中,对车辆的3D姿态和位置进行建模的参数包括:车辆的姿态包括车辆在场景中的位置和车辆相对于摄像机的角度,包括两方面参数:3D包络的中心位置相对相机的偏移T = [tx,ty ,tz]T,车辆的旋转矩阵R (由三个旋转角度θ, ϕ, α决定, θ是方位角azimuth, ϕ是仰角elevation, α是翻转角roll,对于自动驾驶场景ϕ=α=0)。除此之外,我们必须估算车辆的尺寸大小,包括三个方向的尺寸D = [dx,dy ,dz]。

假设以车辆中心为原点,世界坐标系中某一个点x0=[X, Y, Z, 1]T在图像上的投影点为x=[x, y, 1]T。则他们满足成像方程:

对于这9个参数的计算分为2个步骤:

第一步,在得到2D的矩形之后,利用回归学习的方法估计方位角θ和物体尺寸D = [dx,dy ,dz]。这里忽略掉仰角和翻转角(ϕ=α=0)。

角度θ的回归:

直接估算全局方位角θ是很困难的,这里转而估算物体转角相对于相机的局部角度θl,类似于Faster-RCNN对目标的位置设定anchor位置,这里局部角度θl的估计也采用离散划分的方法,首先分为n个不同的区间,预测的目标转化为第i个角度区间的概率ci和角度偏差的余弦和正弦值cos(∆θi)和sin(∆θi)。

(a)

(b)

图3. (a):车辆方位角θ的俯视图。方位角是车辆绕y轴的旋转角(车辆高度dy),对于摄像机来说车辆在图像成像看到的是局部的转角θl,若θray为车辆相对于与摄像机的旋转角度,则θ=θl+θray。我们回归的角度是局部转角θl。图(b): 用于角度回归的网络设计。

尺寸d的回归:

在KITTI数据集中,车辆被粗略的分为4类{cars, vans(小货车), trucks(卡车), buses}。

每种类型的车辆形状相似,尺寸相近,变化很小。首先统计每类车辆的平均尺寸,这里估计得尺寸为与平均尺寸的偏差(residual)。

损失函数为:

这里D*为基准尺寸。是我们要估计的值。

第二步,在得到方位角和物体尺寸之后,利用成像公式,计算中心点向量T = [tx,ty ,tz]T。

在R和D=[dx,dy ,dz]已知的情况下,可以利用下面投影公式,计算T的值。

3.2 基于引导和表面(GS)的3D车辆检测算法

本方法也是先计算2D检测结果,通过一些先验知识结合学习算法计算3D检测边界框的尺寸和方位[2]。本文的创新点是充分利用3D表面在2D图像的投影特征,进行区分判别。

本方法以单张图像为输入,由粗到细逐步恢复目标(车辆)的3D结构。如下图所示:步骤(1): 借助于一个基于CNN的检测算法得到2D检测框和观测角度。步骤(2): 通过场景先验,计算粗糙3D边界框(3D guidance)。步骤(3): 3D框被重投影到图像平面,计算表面特征。步骤(4):通过子网络,由重投影特征进行分类学习,得到精化的3D检测框。

图4:GS-3D基本流程


第一步:扩展Faster-RCNN判别回归网络部分,估计2D检测结果的类型、2D边框、方位角度。如下图左图。注意,这里估计的角度是观测角度α。如下图右所示:

(a) 

(b)

图5:(a)通过多分支的RCNN框架预测2D检测框的对象类型、2D边框、以及目标的角度。(b)观测角度α和全局角度β的图示。这里y轴向下,所以角度正方向是顺时针方向。

第二步:计算粗化的3D框。给定相机内参数K, 2D边界框,以及方位角α,通过射影几何方法计算3D框。这里,用符号表示检测车辆的3D边框为Bg=(wg,hg ,lg,xg,yg ,zg,θg),其中((wg,hg ,lg)是物体的长、宽、高。(xg,yg ,zg)是物体的中心3D位置。θg是在空间中的朝向角度。这里粗略的估计车辆的长、宽、高采用了车辆识别类型的先验尺寸,即预先统计真实情况下,每种车辆的平均长、宽、高,按照前一步预测的类型直接设定物体尺寸为平均尺寸。根据上图中的观察,可以得到:

这里x和z是中心位置的x和z坐标值。因此,现在的问题是如何估计中心位置Cb的值。这里假设3D车辆顶面的中心投影在2D图像上为2D检测框的上边中点;3D车辆底面的中心投影到2D图像上为2D检测框的下边中点。可以根据这个假设,粗略的估计3D车辆的中心位置。若图像中2D框为,那么上边中心的奇次坐标为,下边中心的奇次坐标为。他们的正则化3D坐标(深度为1的3D投影)为:

由于车辆的高度为hg,因此可以估计深度d为d = hg/(ỹb- ỹt),所以车辆中心坐标可以估算为:

第三步:重投影表面特征,并精化3D检测框。上述第二步得到的3D框坐标是粗略的(采用平均尺寸作为已知尺寸总是有偏差的),为了计算更准确的3D框坐标,需要根据图像本身特征进行矫正。这里依然使用深度学习的方法。

下图表示如何计算可见的车辆表面:除了上表面(车底一般是看不到的),根据观察角度α的取值范围,可以确定观察到的是车的左侧或者右侧(|α|>π/2或者|α|<π/2); 以及车头或者车尾是否被观测到(α>0或者α<0)。根据具体观测的三个表面,可以对他们进行单应变换,在卷积特征上提取变换这三个表面,按通道拼接到一起。

图6:三个表面特征的映射和提取

这里对3D框的预测采用分类形式,分类目标为离散3D框残差尺寸。预测网络如下图:

图7: 实现残差尺寸预测的网络结构

网络的输入为变换的车辆表面和2D框图像上下文特征;输出为真实3D框坐标与预估坐标的差值,公式如下:

四.双目立体视觉3D目标检测算法介绍

4.1 基于3DOP的3D目标检测

本文采用类似于Fast R-CNN的二步检测算法。对于具有2副成对图像的双目立体视觉图像[8]。首先,采用Yamaguchi在ECCV2014年发表的方法[6]计算每个点的深度图像,由此生成点云数据,后续的处理是基于点云做为处理和输入数据。然后,采用Struct-SVM优化的方法选择3D检测的候选3D框y。最后,通过R-CNN方式,对每个候选框进行分类评估和位置回归。

第一步,产生3D检测的候选框。

这里,每个候选框用6维向量表示y=[x, y, z, θ, c, t]。其中[x, y, z]表示3D候选框的中心点,θ表示物体的水平方位角,c∈C表示目标的类别,这里类别指{车辆-car、自行车-Cyclist、行人-Pedestrian}。t表示在类型c中尺寸模板的下标,这里每种类型的尺寸模板是对训练数据中基准3D边框进行聚类得到的聚类中心尺寸大小。如果输入的点云数据表示为x,那么根据每个候选框y和输入x可以得到一些特征。本文设计了4种特征,然后令权重为w=。可以得到下面能量函数:

这里特征的构成主要是:(1)点云密度ϕpcd,平均立方体内的点云数目。(2)空间空置率ϕfs,,定义为点云与相机之间的空间大小。(3)离地面的平均高度ϕht, 定义为与高度先验的平均相似率。(4)高度对照率ϕht-contr,3D边界框周围点云的分布率。

为了优化这个能量函数,训练参数向量w, 本文采用结构化SVM优化模型,给定训练数据可以使用cutting-plane算法求上述最小化问题。

推导过程中,首先根据点云信息估计地面位置。候选3D框的计算采用穷举的方法得到,首先找到能量最低的3D框,然后找下一个,搜索的过程采用NMS(非最大抑止)的策略。以此找到m个候选框:

第二步,采用Fast-RCNN类似的框架,对候选3D框判别和回归,选择正确的3D边界框。

图8:基于单个RGB或者RGB-HHA图像的3D目标检测网络

如上图,本文采用Fast-RCNN类似的框架,对候选3D框进行判别和矫正。不同的是,在5层卷积层之后,添加了一个图像上下文区域信息,对这个特征进行卷积和2层全连接运算后,拼接到原来Pooling后的特征中,输出为分类类别c, 3D边框的矫正估计,以及角度回归。

也可以考虑像素的深度数据(depth information)[2],为了处理深度数据,可以直接在输入图像中增加深度数据图像,也可以采用下面图中的双分支架构的判别和回归网络。但是这种双分支训练时需要更大的显存,对于显存的要求是原来的2倍。

图9. 双分支的3D对象检测网络结构

4.2基于立体视R-CNN的3D目标检测算法

本方法是扩展 Faster-RCNN网络框架到双目立体视觉进行3D目标检测的方法[10]。方法的关键步骤是对左右图像的自动对齐学习,以及通过稠密匹配优化最终的检测结果。

第一步:左右视图的Stereo-RPN设计

图10:建议的立体视Stereo-RCNN网络架构

由左右视图图像经过2个相同的Faster-RCNN中的RPN结构计算左右视图中匹配的推送(proposals)矩形框stereo-RPN。输出为六元组[∆u, ∆w, ∆u’, ∆w’, ∆v, ∆h]。其中∆u, ∆w, ∆u’, ∆w’为左右视图中目标2D框的横坐标与锚点(anchor box)的偏差。∆v, ∆h为纵坐标偏差和高度偏差。注意这里采用校正的双目相机,因此,左右视图的纵坐标和高度是相同的。

RPN主干网络采用Resnet-101或者FPN。与Faster-RCNN中的RPN相比,stereo-RPN同时计算了可能的2D框,并且对左右视图的2D框进行了配对(association)。

第二步:估计3D物体的尺寸(dimension)、角度(viewpoint)和关键点

采用学习的方法,可以估计物体的3D尺寸(dimension),在世界坐标中的转角(θ)。类似于六元组[∆u, ∆w, ∆u’, ∆w’, ∆v, ∆h],采用左右视图的特征拼接,经过2个全连接卷积得到3个全归目标:物体的类别, 立体框六元组,物体的尺寸,相对视角α。这里主要说明相对视角α。参考下图,为了估计物体3D位置,要确定全局转角θ,但是对于物体在相机中的投影来说,相同的相对视角α,具有相同的投影。因此,从投影回归全局转角θ并不直观。这里的方法采用[2]中类似的方法首先回归相对视角α,再计算全局转角θ。

图11

图11:物体的全局方向角是θ,从相机观察的角度是β,物体相对于相机的视角是α=θ+β。由于相同的相机视角α得到近似相同的投影,因此这里回归的角度是物体转角相对于相机的视角α。和其他工作类似,回归采用α的三角函数[sin(α), cos(α)]。

对于物体的尺寸估计也借鉴了[2]中的方法,对于每个类物体估计与平均尺寸的尺寸偏差。

估计关键点,作者采用左视图特征。这里的关键点是指物体地面的4个三维角点。这4个角点投影到图像中,只有一个角点实在物体图像中间的,看作为投影关键点(perspective key point)。另外2个对3D重建有用的关键点是投影到图像中物体2D边界的,这两个点成为边界关键点(boundary key point),他们之间的像素看作在物体中。左视图特征经过6个卷积层和2个反卷积层得到6x28的特征,其中4个通道反映了这4个关键点投影到为投影关键点的概率,2个通道反映了投影到左、右边界的概率。

第三步: 粗略3D检测估计

在得到角度、物体尺寸之后,对于3D目标的位置描述主要包括中心点空间坐标和旋转角{x, y, z, θ}。

图12

图12:3D矩形框在2D图像平面投影的示意图

根据上图空间关键点的投影示意图。可以得到如下公式组:

上式共有7个等式,其中b是校正的双目相机之间的基线长度。{w, h, l}是回归估计得目标空间尺寸。根据高斯-牛顿算法可以求解上式,得到(x, y, z)的值。

第四步:优化3D检测结果

为了得到更精确的3D位置,进一步考虑目标矩形框内的像素值,使用稠密像素匹配,可以得到左右视图像素偏差的和:

其中z是目标中心的深度,∆zi是每个像素与中心位置的深度偏差。对于上式中像素的范围取作车辆下半部分关键点之间的区域(Patch),优化的目标是最小化这个像素差和,计算最优的z值。可以采用集束优化(Bundle Adjustment)的思想进行优化,得到优化的深度值z。

五.视觉3D目标检测小结

相比2D目标检测问题,进行物体在3D空间的位置估计对于实际应用场景更有意义。通过估计实际位置,自主驾驶的车辆和机器人可以准确的预判和规划自己的行为和路径,避免碰撞和违规。同时,3D目标检测问题也面临更多的挑战,主要的区别在于不仅要找到物体在图像中出现的位置,还需要反投影到实际3D空间中,需要有绝对的尺寸估计。对于视觉3D目标估计,采用扩展图像目标检测算法的深度学习模型对于3D检测具有重要帮助,但是加入空间几何关系的约束是非常必要的前提,不仅可以提升检测精度,也可以去除可能的无意义的错检。而如何结合稠密匹配算法以及3D重建中的集束调整技术,对于进一步提升3D目标检测精度必然具有重要作用。


参考文献
[1]A. Mousavian, D. Anguelov, J. Flynn, J. Kosecka, “3d bounding box estimation using deep learning and geometry”. In CVPR 2017, 5632-5640.
[2]B. Li, W. Ouyang, L. Sheng, X. Zeng, X. Wang. “GS3D: An Efficient 3D Object Detection Framework for Autonomous Driving”, CVPR 2019.[3]S. Gupta, R. Girshick, P. Arbelaez, and J. Malik, “Learning rich features from RGB-D images for object detection and segmentation,” in Proc. Eur. Conf. Comput. Vis., 2014, pp. 345–360.
[4]X. Chen, K. Kundu, Y. Zhu, A. G. Berneshawi, H. Ma, S. Fidler, and R. Urtasun, “3D object proposals for accurate object class detection”, in Neural Information Processing Systems, 2015.
[5]Y. Wang, and W. Chao, and D. Garg, and B. Hariharan, and M. Campbell, and Weinberger, Q. Kilian, “ Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving”. arXiv preprint arXiv:1812.07179, 2018.
[6]K. Yamaguchi, D. McAllester, and R. Urtasun, “Efficient joint segmentation, occlusion labeling, stereo and flow estimation,” in Proc. Eur. Conf. Comput. Vis., 2014, pp. 756–771.
[7]H. Fu, M. Gong, C. Wang, K. Batmanghelich, and D. Tao. “Deep Ordinal Regression Network for Monocular Depth Estimation”. CVPR, 2018.
[8]A. Mousavian, D. Anguelov, J. Flynn, J. Kosecka, “3d bounding box estimation using deep learning and geometry”. In CVPR 2017, 5632-5640.
[9]X. Chen, K. Kundu, Y. Zhu, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals using stereo imagery for accurate object class detection. In TPAMI, 2018.P. Li, X. Chen, S. Shen. “Stereo R-CNN based 3D Object Detection for Autonomous Driving”. CVPR 2019.
CVer
CVer

一个专注于计算机视觉方向的平台。涉及目标检测,图像分割,目标跟踪,人脸检测&识别,姿态估计,GAN和医疗影像等。

理论目标检测计算机视觉3D 传感器深度学习优化算法其他智能领域机器学习
101
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

特征检测技术

特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

奇虎360机构

360公司成立于2005年8月,创始人周鸿祎 2011年3月30日在纽交所成功上市 2018年2月28日,回归A股上市,上证交易所(601360) 是中国第一大互联网安全公司,用户6.5亿,市场渗透率94.7% 中国第一大移动互联网安全公司,用户数超过8.5亿 中国领先的AIoT公司,将人工智能技术应用于智能生活、家庭安防、出行安全、儿童安全等多个领域

http://smart.360.cn/cleanrobot/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

参考文献10请问在哪?