CVPR 2019: 光电+AI,合刃科技创新提出非视距物体识别技术

试想一下,此时你正戴着耳机,全神贯注的“吃鸡”,马上就到了拐角处,你习惯性的放慢了脚步……你是一只老鸟,没有听到声响反而让你变的更加警觉,会不会在转角侧正有一个人在潜伏着,默默地注视并等待着你?要是有个外挂可以识别盲区该多好啊……然而,使用外挂是违规的,不过这项黑科技在现实中已经存在了。

作为计算机视觉领域的顶级会议,今年的CVPR收录了一篇于非视距物体识别技术的亮点论文,作者来自合刃科技,让这个场景可能成为现实。这篇论文介绍了基于相干光的散斑特性来实现非视距物体识别的技术。

基于相干光散斑的非视距物体识别

自动驾驶、安防监控及其他领域,遮挡物和非视距成像区域的目标监测一直是个难以解决的问题,比如摄像头无法捕获被遮挡角落的危险行为,自动驾驶的传感器无法实时探测到拐弯处车辆和行人,无法感知被前方车辆遮挡处的行人突然横穿危险行为等。

而这篇论文中提出的非视距物体识别技术,就是利用光的相干性从微弱的反射光信号中获取光场相位信息,结合深度学习人工智能算法,实现对障碍物后面的物体的实时识别。相干光的传输矩阵具有幺正性,经粗糙表面反射后干涉形成的散斑分布包含了光的相位信息,可以极大地降低矩阵求逆的难度;结合深度神经网络对散斑图像进行采集训练分析,可以实现对被遮挡物的高精度识别。

研究人员通过仿真和实验验证了障碍物后面的LCD数字变化的实时读取。

在普通房间中放置了一块小LCD屏幕,实时显示数字变化,在旁边放入视觉传感器,同时面对挡板,并在他们之间加上不透明的障碍物。视觉传感器只能采集到挡板上漫反射的光。

研究人员采用了一台两百万像素的CMOS相机完成这个实验,采购成本不超过2万人民币,远低于采购用于探物的脉冲激光相机所需成本。

b5f83d2cfb2248daaf6c1bf82d8089b

LCD屏幕上实时显示的是经典的MNIST手写数据集,当携带MNIST数字信息的相干光经过挡板漫反射后,形成散斑图。如下图所示,分别是数字0-9及其对应的散斑图。由于散射和干涉的作用,所有的图像都布满散斑。

所有的数据(散斑图)经过预处理后结合AI算法,实现障碍物后面的数字变化的实时识别。散斑图像的任一部分都包含了整个被识别物体的信息,因此,即使是散斑图的很小的一个部分,也可以用来进行物体识别。也就是说,散斑图像不同大小的裁剪和图像的不同位置,并不影响最终的识别效果。

035041e024c00a6a160f1598bb27a68

为充分探寻该方法的适用性,研究人员还针对不同场景进行了实验。包括经过一面墙反射的散斑识别,经过两面墙反射的散斑识别,经过旋转墙反射的散斑识别,以及光源和视觉传感器位于同侧的散斑识别。所有实验的平均识别准确率高达91%以上。如下表是每个实验的具体识别率。

数字还远远不够,该论文还验证了障碍物后的人体姿态识别。如下图为12个人的同一个姿态对应的各自散斑图,可以看出,人体姿态识别包含了更多的复杂特征。即使是同一个动作,不同的人也会有显著差异。但是通过相应的AI算法,可以从散斑图像中提炼出隐含的相同特征,从而实现姿态的识别。

下图为同一个人展示的10种不同的姿态,及其对应的散斑图。区分不同散斑图的特征,可以实现不同姿态的识别。

通过深度学习的AI算法处理,以11个人的姿态作为训练样本,剩下的1个人做测试,遍历12个人(12次实验),得到的平均识别准确率为78.18%,高于现有的3姿态识别的论文报道的准确率76.6%。10个不同姿态的混淆矩阵如下:

该姿态识别的研究,在安防监控领域有广泛应用场景。比如识别被遮挡角落的危险行为,包括打架斗殴或其他有危险性的动作、军事及反恐行动中环境隐藏侦查,以及消防救援时获取屋内被困人员的信息等。

被遮挡角落的危险行为检测示意

相关研究

该论文的方法跟其他的非视域识别相比,有不少优势。

比如熟知的TOF(Time of Flight)飞行时间法。虽然TOF方法对非视域物体的重构精度能达到厘米量级,但是在实际应用中需要昂贵的设备,比如单光子探测器和纳秒脉冲激光(价值几十万人民币)。而这篇论文的方法只需要普通激光器和CMOS图像传感器,具有普遍适用性。

另外,合刃科技此次论文中采用的是非成像识别方法,比成像识别具有更好的简易型和鲁棒性,无需昂贵的成像设备,算法中也无需复杂且耗时的图像重构,从而具有更好的适用性和普遍推广性。TOF方法一次数据采集和图像重建需要数分钟,但是该论文的方法用时不到一秒。当然,该论文的方法也有需要改进的地方,比如外界干扰(振动等)可能引起散斑图的漂移,从而降低识别准确率。另外,经过多次漫反射后,光强会减弱,从而降低信噪比和识别准确率。因此,为提高非视距物体识别效果,后续需要更稳定的硬件和更优化的深度学习算法。

未来

在此次论文提出的非视距物体识别技术之外,合刃科技还致力于全息全频机器机器视觉系统的研发和商业化。

全息全频机器机器视觉系统从数据采集端进行重新设计,应用了先进的集成光学技术,颠覆性的对CMOS图像传感器进行纳米结构升级,结合AI算法,软硬件一体化采集多个维度的光学信息,实现传统视觉传感器和人类视觉所无法完成的多维度全息图像信息采集。全面提升视觉识别性能,扩展多种特殊应用场合。

可以进行障碍物体识别、雨雾环境等恶劣环境的物体识别、黑色、白色等背景色的物体识别、不明显的瑕疵识别,解决拍照遭遇反光、对玻璃的无法拍照、光谱不够多等目前计算机视觉领域的常见问题,技术将应用于智能制造、安防、无人驾驶辅助驾驶、智能穿戴设备等多个领域。

光是一种电磁波,有很多的特征物理量,包含相位、光强、光谱、偏振、方向等信息。传统的计算机视觉仅用到了光强信息,这就导致了原本丰富信息其实并未得到充分利用,这也将最终影响到识别的边界和效果。

而此次论文提出的非视距物体识别技术,在此基础上仅增加了对相位信息的收集与利用,便能够创造出如此丰富的应用场景,解决多个领域里的难点痛点。随着我们对“光”的进一步探索,对更多的物理量进行获取与计算,必然能打破识别边界。

光电+AI,这个世界远比我们能够看到的更加丰富多彩。


  • 论文Direct Object Recognition Without Line-of-Sight Using Optical Coherence
  • 地址:http://arxiv.org/abs/1903.07705
  • 作者:Xin Lei, Liangyu He, Yixuan Tan, Ken Xingze Wang, Xinggang Wang, Yihan Du,Shanhui Fan, Zongfu Yu
理论物体识别创业公司合刃科技CVPR 2019
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

混淆矩阵技术

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。 这个名字源于这样一个事实,即很容易看出系统是否混淆了两个类。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

合刃科技机构

合刃科技致力于全息全频机器视觉系统的研发和商业化,用光电和人工智能技术改善机器视觉的实际效果。

推荐文章
暂无评论
暂无评论~