CVPR 2018 Poster论文:处理多种退化类型的卷积超分辨率

本文介绍了 CVPR 2018 的一篇 Poster 论文《Learning a Single Convolutional Super-Resolution Network for Multiple Degradations》。

论文地址:http://www4.comp.polyu.edu.hk/~cslzhang/paper/CVPR18_SRMD.pdf

1.    摘要

近年来,深度卷积神经网络(CNN)方法在单幅图像超分辨率(SISR)领域取得了非常大的进展。然而现有基于 CNN 的 SISR 方法主要假设低分辨率(LR)图像由高分辨率(HR)图像经过双三次 (bicubic) 降采样得到,因此当真实图像的退化过程不遵循该假设时,其超分辨结果会非常差。此外,现有的方法不能扩展到用单一模型解决多种不同的图像退化类型。为此,提出了一种维度拉伸策略使得单个卷积超分辨率网络能够将 SISR 退化过程的两个关键因素(即模糊核和噪声水平)作为网络输入。归因于此,训练得到超分辨网络模型可以处理多个甚至是退化空间不均匀的退化类型。实验结果表明提出的卷积超分辨率网络可以快速、有效的处理多种图像退化类型,为 SISR 实际应用提供了一种高效、可扩展的解决方案。

2.引言

单幅图像超分辨率(SISR)的目的是根据单幅低分辨(LR)图像输入得到清晰的高分辨率(HR)图像。一般来说,LR 图像 y 是清晰 HR 图像 x 由下面的退化过程得来,

其中表示 HR 清晰图像 x 与模糊核 k 之间的卷积表示系数为 s 的降采样算子,n 表示标准差(噪声水平)为的加性高斯白噪声(AWGN)。

SISR 方法主要分为三类:基于插值的方法、基于模型的方法以及基于判别学习的方法。基于插值的方法(例如:最近邻插值、双三次插值)虽然速度快,但是其效果比较差。基于模型的方法通过引入图像先验,例如:非局部相似性先验、去噪先验等,然后求解目标函数得到视觉质量较好的 HR 图像,然而速度较慢。虽然结合基于 CNN 的去噪先验可以在某种程度上提升速度,但仍然受限于一些弊端,例如:无法进行端对端的训练,包含一些比较难调的参数等。基于判别学习的方法尤其是基于 CNN 的方法因其速度快、可以端对端的学习因而效果好等在近几年受到了广泛关注,并且逐渐成为解决 SISR 的主流方法。

自从首个用 CNN 解决 SISR 的工作 SRCNN 在 ECCV(2014)发表以来,各种不同的改进方法相继提出。例如,VDSR 在 PSNR 指标上取得了非常大的提升;ESPCN 和 FSRCNN 分别在速度上进行了改进;SRGAN 在放大倍数较大情况下针对视觉效果的改善提出了有效的方法。然而这些方法都存在一个共同缺点,也就是它们只考虑双三次 (bicubic) 降采样退化模型并且不能灵活的将其模型扩展到同时(非盲)处理其它退化类型。由于真实图像的退化过程多种多样,因而此类方法的有效实际应用场景非常有限。一些 SISR 工作已经指出图像退化过程中的模糊核的准确性对 SISR 起着至关重要的作用,然而并没有基于 CNN 的相关工作将模糊核等因素考虑在内。为此引出本文主要解决的问题:是否可以设计一个非盲超分辨率(non-blind SISR)模型用以解决不同的图像退化类型?

3.方法

本文首先分析了在最大后验(MAP)框架下的 SISR 方法,借此希望可以指导 CNN 网络结构的设计。由于 SISR 问题的不适定性,通常需要引入正则项来约束解空间。具体来说,LR 图像 y 对应的 HR 图像 x 可以通过求解下述问题近似,

其中为似然(也即数据保真)项,为先验(也即正则)项,为似然项和先验项之间的权衡参数。简单来说,上述公式包含两点:1)估计得到的 HR 图像不仅要符合 SISR 的退化过程,并且还要满足清晰图像所具有的先验特征;2)对于非盲超分辨率问题,x 的求解与 LR 图像 y、模糊核 k、噪声水平以及权衡参数有关。简而言之,非盲 SISR 的 MAP 估计可以表示为,其中为 MAP 估计中的参数。进而如果将 CNN 看作 MAP 估计另一种形式的解,那么有如下结论:

1)    由于数据保真项对应着 SISR 的退化过程,因此退化过程的准确建模对 SISR 的结果起着至关重要的作用。然而现有的基于 CNN 的方法其目标是求解下面的问题,。由于没有将模糊核和噪声等因素考虑在内,因此其实用性非常有限。

2)    为了设计更加有效的基于 CNN 的 SISR 模型,应该将更多的图像退化类型考虑在内,一个简单的思路就是将模糊核 k 和噪声水平也作为网络的输入。由于权衡参数可以融入噪声水平之中,因此 CNN 映射函数可以简化成如下形式:

3)    由于 MAP 估计中大部分的参数都对应着图像先验部分,而图像先验是与图像退化过程不相关的,因此单一的 CNN 模型具有处理不同退化类型的建模能力。

通过上述分析可以得出非盲 SISR 应该将退化模型中的模糊核和噪声水平也作为网络的输入。然而 LR 图像、模糊核和噪声水平三者的维度是不同的,因此不能直接作为 CNN 的输入。为此本文提出了一种维度拉伸策略。假设 LR 图像大小为,首先将向量化的模糊核 PCA 降维,然后和噪声水平并在一起得到一个t+1维的向量 v,接着将v拉伸为维的张量,我们将此张量称之为退化图(Degradation Maps),其中第i个图的所有元素均为



图 1:维度拉伸示意图。

至此,我们可以将退化图和 LR 图像合并在一起作为 CNN 的输入。为了证明此策略的有效性,选取了快速有效的 ESPCN 超分辨网络结构框架。值得注意的是为了加速训练过程的收敛速度,同时考虑到 LR 图像中包含高斯噪声,因此网络中加入了 Batch Normalization 层。

图 2 给出了提出的超分辨率网络(简称 SRMD)结构框架。

图 2:提出的超分辨率网络结构框架(卷积层数为 12,每层通道数为 128)。

4.实验

在训练阶段,SRMD 采用了各向同性和各向异性的高斯模糊核、噪声水平在 [0, 75] 之间的高斯白噪声以及 bicubic 降采样算子。需要指出的是 SRMD 可以扩展到其它降采样算子,甚至其它退化模型。

在测试阶段,SRMD 比较了不同方法在同为 bicubic 降采样退化下的 PSNR 和 SSIM 结果(如表 1 所示)。可以看出虽然 SRMD 是用来处理各种不同的退化类型,但是仍然在 bicubic 降采样退化下取得不错的效果。需要指出的是 SRMD 在速度上也有很大的优势,在 Titan Xp GPU 上处理 512 × 512 的 LR 图像仅需 0.084 秒,是 VDSR 超分辨率两倍所用时间的一半。表 2 给出了不同退化类型下的 PSNR 和 SSIM 结果比较,可以看到 SRMD 同样取得了不错的效果。图 4 举例说明了 SRMD 可以设定非均匀退化图,进而可以处理退化空间不均匀的 LR 图像。最后,图 5 展示了不同方法在真实图像上的视觉效果比较,可以看到 SRMD 复原的 HR 图像在视觉效果上明显优于其它方法。

表 1:不同方法在 bicubic 降采样退化下的 PSNR 和 SSIM 结果比较(其中 SRMDNF 表示不考虑噪声情况下训练得到的模型)。

图 3:不同方法在 bicubic 降采样退化下超分辨率四倍的视觉效果比较。

表 2:不同方法在不同退化类型下的 PSNR 和 SSIM 结果比较。

图 4:举例说明 SRMD 可以处理退化空间不均匀的情形。(a)噪声水平以及模糊核宽度的空间分布;(b)LR 图像(最近邻插值放大);(c)复原得到的 HR 图像(放大两倍)。

图 5:不同方法在 SISR 经典测试图像「Chip」上超分辨率四倍的视觉效果比较。

5.结论

最后总结一下,本文的主要贡献有三个方面:

  • 提出了一种简单、有效、可扩展的超分辨率模型,其不仅可以处理 bicubic 降采样退化模型,并且可以处理多个甚至是退化空间不均匀的退化类型,为 SISR 实际应用提供了一种解决方案。

  • 提出了一种简单有效的维度拉伸策略使得卷积神经网络可以处理维度不同的输入,此策略可以扩展到其他应用。

  • 通过实验展示了用合成图像训练得到的超分辨网络模型可以有效的处理真实图像复杂的退化类型。

理论
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

收敛技术
Convergence

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

降维技术
Dimensionality reduction

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

降采样技术
Downsampling

降采样是数位信号处理领域中的一种多速频数字信号处理(multi-rate digital signal processing)系统中采样率转换(sample rate conversion)技术的一种,或指代用来降低信号采样率的过程,与插值相反——插值用来增加取样频率——降采样通常用于降低数据传输速率或者数据大小。因为降采样会有混叠的情形发生,系统中具有降采样功能的部分称为降频器(decimator)。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

噪声技术
Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

目标函数技术
Objective function

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

批次技术
Batch

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

张量技术
Tensor

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

批归一化技术
Batch Normalization

卷积技术
Convolution

推荐文章
谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
吴攀1
图鸭科技提出图像压缩技术TNG:节省55%带宽
机器之心3
可视化语音分析:深度对比Wavenet、t-SNE和PCA等算法
机器之心2
返回顶部