Shangzhe Wu(吴尚哲)、Jiarui Xu(徐嘉瑞)、Yu-Wing Tai(戴宇榮)、Chi-Keung Tang(鄧志強)作者

腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

目前最好的高动态范围(HDR)成像方法通常是先利用光流将输入图像对齐,随后再合成 HDR 图像。然而由于输入图像存在遮挡和较大运动,这种方法生成的图像仍然有很多缺陷。最近,腾讯优图和香港科技大学的研究者提出了一种基于深度学习的非光流 HDR 成像方法,能够克服动态场景下的大范围前景运动。

论文:Deep High Dynamic Range Imaging with Large Foreground Motions

论文链接:https://arxiv.org/abs/1711.08937

摘要:本文章基于深度学习,提出了一种非光流的高动态范围(HDR)成像方法,能够克服动态场景下的大范围前景运动。目前最好的 HDR 成像方法,例如 Kalantari 在 2017 年提出的方法,通常是先利用光流将输入图像对齐,随后再合成 HDR 图像。然而由于输入图像存在遮挡和较大运动,这种方法生成的图像仍然有很多缺陷。与此相反,我们避免了光流,直接将 HDR 成像视为图像转换的问题,这为 HDR 成像提供了重要启示。而且,即使出现了完全遮挡、过曝、曝光不足等问题,简单的翻译网络也能够生成逼真的细节,这也是传统优化方法所做不到的。此外,这种方法还能根据不同的指定参照图生成 HDR 图像。我们通过足量定性和定量的对比,展示了这种方法能够生成高质量的 HDR 图像,与现有技术相比,生成结果的颜色缺陷和形状畸变都大幅减少了,而且对于不同输入具有鲁棒性,甚至是未进行辐射校正过的图像。

贡献: 现有的数码相机一般都不足以记录整个场景的动态范围,而一些用于拍摄 HDR 图像的特制设备通常都过于昂贵或沉重,因此,合并多张在不同曝光拍摄的低动态范围(LDR)图像是另一种比较现实的方法。如果这些 LDR 图像是完美对齐的,也就是说拍摄时相机以及物体都没有移动,合并的问题已经基本被解决。但是在大范围前景位移与轻度相机位移存在的情况下,前景与后景的错位是不可避免的。后者很大程度上可以用单应性变换来解决,然而前景位移会让合并过程变得困难。很多已有的方法很容易在最终生成的高动态图中引入鬼影等缺陷。本文提出了一种用简易的端到端的卷积神经网络,即使有较大范围的前景位移的情况下也能学习如何把多张低动态图合并成没有鬼影的高动态图。不像 Kalantari 的方法,我们的神经网络是在没有光流对齐的情况下进行端到端的训练,从而在本质上避免了错误光流造成扭曲等问题。而且,通常由于饱和以及阻挡,一些内容在所有的 LDR 图像中都没有被拍摄到,神经网络同样可以幻化出合理的细节,这是在处理大范围的前景位移时是非常实用的。

网络结构: 

我们利用翻译网络去学习多张 LDR 到 HDR 图像的映射。网络主体是对称的编码器解码器架构加以 Unet 与 ResNet 变化。Unet 是映射学习的常用工具。它主要是一个具有跳跃连接的编码器解码器的架构,编码器的输出的特征图直接与相应层的解码器的输入拼接。除了简单的 Unet, 我们也尝试了 ResNet,用残差模块取代中间层。整体来看,网络结构可以分为 3 个部分,编码器,合并器,解码器,对于每个不同的曝光输入,编码器的前两层是分立的,其余层共享参数。在抽取特征之后,合并器学习如何去合并他们,而解码器则负责生成 HDR 图像。

定性比较: 

在没有物体位移的区域,所有的方法都生成了不错的结果,但是当过曝区域出现较大的物体位移时,其他的方法会出现较明显的颜色缺陷或几何畸变。相比之下,我们提出的两种网络都生成了很好的结果,ResNet 结构表现通常好于 Unet 结构。

定量比较: 

我们用生成的图像与真实图像的 PSNR 和 SSIM 来比较。我们同时也计算了衡量 HDR 图像视觉效果的度量 HDR-VDP-2。尽管 Kalantari 的 PSNR 分数略微偏高,但我们的方法得到了相近的 SSIM 分数以及略微高一点的 HDR-VDP-2 分数。

幻化: 

我们的方法能够幻化出缺失的细节,这些细节对于传统的优化方法是不可能恢复的。在 Fig.5 中,只输入中等曝光的图片,我们的网络可以合理地幻化出饱和区域里草地的纹理。

如 Fig.6 所示,在过度曝光或者低度曝光的区域里,有些细节通常会在所有的 LDR 图像中都缺失,因此这种幻化效果在动态范围成像中显得十分有用。

手机拍摄:

为了验证实用性,我们在手机图片上测试了我们的模型。值得注意的是,这些输入图像都没有经过辐射校正,这也验证了我们模型的鲁棒性。

运行时间: 

由于传统的优化方法是用 CPU 进行的,公平起见,我们在相同的 CPU 环境测试所有方法的运行时间。若在 GPU 环境下运行,我们的方法处理 896×1408 的图像则只需要 0.23 秒。

理论ECCVECCV 2018香港科技大学腾讯优图
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

推荐文章
暂无评论
暂无评论~