Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

亮风台&CV君作者

CVPR 2019 Oral 亮风台提出端到端投影光学补偿算法,代码已开源

导读:图像增强是一个历久弥新的研究方向,大多数计算机视觉学习者最开始接触的图像平滑、去噪、锐化是增强,现在研究比较多的去雾、去雨雪、暗光图像恢复也是增强。

图像增强往往是和应用场景强相关的,比如自动驾驶场景下的去雨雪,遥感图像的去云雾,前几天还有52CV的群友在讨论水下图像增强。因为不同场景里传感器、外在环境、退化模型不同,所使用的方法也不同。

随着家用投影仪的普及,与之相关也出现了很多新问题,今天的文章为亮风台公司投稿,让我们一起来看看来自应用一线的工业界如何用深度学习解决光照补偿问题。

近日,国内AR产品与服务提供商亮风台公布了投影AR算法研究最新成果,主要用于解决投影仪光学补偿问题,即当投影幕布不是理想的白色漫反射时,尽可能消除投影面上的图案。

相关论文《End-to-end Projector Photometric Compensation》已经入选CVPR 2019的oral presentation环节,代码已开源。

以下为作者信息:

与之前提出的传统的方法相比,新成果在量化数值和视觉效果上都大幅提升,可以预见,该成果将成为投影AR技术应用落地提供重要的技术基础。

《End-to-end Projector Photometric Compensation》的重要贡献主要在以下几点:

1. 首次将投影仪光学补偿问题阐述为一个端到端的深度学习问题,然后构造一个新颖的名为CompenNet的卷积神经网络(CNN)来隐式的学习这个复杂的补偿函数。

2. 首次提出一个独立于设备和实际投影的数据库和评价基准,今后类似的工作可以在这个评价基准上统一比较,而不需要复现该研究中使用的设备和实际投影,以前的工作是没有这样的评价基准的。

3. 提供了一个预训练的方法,将预训练好的CompenNet迁移到新的投影屏幕和硬件设置上,只需要拍摄少量的采样图片就可以媲美甚至超过从零开始训练CompenNet和传统方法,这样可以大量的节省采样图拍摄时间和训练时间。

4. 在亮风台提出的评价基准上比较了CompenNet和其他传统的方法,以及一个通用的图到图迁移的深度学习框架pix2pix,实验结果显示在数值和质量效果上新方法都大幅度优于其他参与比较的方法。

背景介绍

这篇工作主要解决投影仪光学补偿问题,即当投影仪屏幕不是理想的白色漫反射时,屏幕的颜色和纹理会导致用户看到失真的效果,如下图1所示。

图1. (a) 正常光照下的具有纹理和颜色的投影屏幕。(b) 投影仪投射的图片(也是我们想要看到的效果)。(c) 相机拍摄到的,没有补偿的投影结果,即将(b)直接投影到(a)上。(d) 我们模型计算出的补偿图。(e) 相机拍到的补偿后的效果,即将(d)投影到(a)上。比较(c)和(e),可以看到明显提升的效果和细节。

为了解决投影仪光学补偿问题,一般是用一个相机来拍摄大量的投影仪投射的图片,然后从这些拍到的和投射的图片对中拟合出一个光学补偿函数,再将要投射的图片经过这个光学补偿函数补偿,最后由投影仪投射,这样投射的补偿正好可以抵消非理想屏幕的颜色和纹理和投影仪本身的非线性光学特性。

但是以上的光学过程过于复杂,所以很多传统方法以及目前效果较好的算法,都是将这个过程简化为投影仪像素与相机拍到的像素只是一一对应,然后独立地对每个像素拟合一个光学补偿函数。

这样的假设,往往忽略了很多重要信息,比如由于投影仪和相机跟屏幕的距离,投影仪相机轻微失焦和屏幕表面相互反射等因素,每一个投影仪的像素并不是跟每个相机像素一一对应,很可能一个投影仪像素覆盖了几个相机的像素,这样的简化势必影响投影仪光学补偿的效果,实验的结果也印证了这一点。

研究方法

为了避免过于简化,我们采用一个新思路,即用CNN网络来端到端隐式地学习这个复杂的光学补偿函数。这样的好处主要是:

  1. CNN有足够的模型复杂度来拟合复杂的光学过程。

  2. CNN滤波器本身就对领域像素采样,这样我们不需要像传统方法那样进行像素一一对应的简化。

  3. 根据我们的数学推导,发现可以用一张相机拍到的屏幕照片来表示投影屏幕本身的光学特性,然后将这张照片作为CompenNet的第二个输入,指导CompenNet学习相机拍摄的失真图和屏幕光学特性的关系, 如下图2所示。

图2. CompenNet的结构。比较训练(左)和补偿(右)过程,我们发现学习从相机拍摄的未补偿图到投影仪输入图片的反映射->,就是学习从投影仪输入图片(想要用户看到的效果)到补偿图片的映射->

网络训练和光学补偿的流程如下图3所示:

图3. 网络训练和光学补偿的流程图。(a) 投影然后拍摄一张投影表面的图和一系列具有纹理的采样图。(b) 用拍摄到和投射的图片对训练CompenNet 。(c) 用训练好的CompenNet补偿输入的图片(也是想要用户看到效果), 然后将补偿后的图片投影。

实验结果

图4. 相机拍摄的补偿效果比较。第一列:投影仪屏幕表面纹理。第二列:相机拍摄的未补偿效果。第三到第六列,相机拍摄的不同补偿方法补偿后的效果。第七列,投影仪的输入,即想要用户看到的效果。

表1. 不同补偿方法的数值量化比较,以下数值是平均了来自于24个不同环境设置,即光照,投影仪、相机姿态和投影仪表面纹理的结果。每个环境设置有500张训练图,200张测试图。可以明显看到在投影仪光学补偿任务上,我们的方法优于传统方法和pix2pix。

表2. CompenNet预训练与从新训练的比较。我们只采用32个训练样本并只训练500个循环,总共耗时170秒。可以明显看到,微调预训练模型的结果优于从新训练CompenNet,而且因为只需要少量样本和训练时间,在实际使用中也更便捷。

事实上,这不是亮风台第一次在投影AR算法上取得重要研发突破。

去年,亮风台和美国两所科研单位联合研发出一套新的投影仪-相机联合标定方法,对于一个相机姿态仅仅需要一次投影采样,使标定效率和实用性大大优于之前的大部分标定系统,其成果发布于增强现实领域顶会ISMAR。

论文地址:

https://arxiv.org/abs/1904.04335v1

论文补充材料:

http://www.dabi.temple.edu/~hbling/publication/CompenNet_sup.pdf

开源地址:

https://github.com/BingyaoHuang/compennet
我爱计算机视觉
我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播计算机视觉与机器学习技术的业内最佳实践。

理论图像增强预训练
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

遥感技术

遥感(remote sensing)是指非接触的、远距离的探测技术。一般指运用传感器/遥感器探测物体的电磁波辐射、反射特性。遥感通过遥感器这类对电磁波敏感的仪器,在远离目标和非接触目标物体条件下探测目标。

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

推荐文章
暂无评论
暂无评论~