Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

NTIRE 2017超分辨率挑战赛夺冠论文:用于单一超分辨率图像的增强型深度残差网络

图像超分辨率(SR)问题,尤其是单一图像超分辨率(SISR)问题,在近几十年中已经受到了广泛的研究关注。SISR 问题旨在从一个单一低分辨率图像中重构出一个高分辨率图像。通常情况下,低分辨率图像和原始的高分辨率图像可根据情境而产生变化。很多研究都假设低分辨率图像是高分辨率图像的降采样结果。最近,深度神经网络在 SR 问题中的峰值信噪比(PSNR)方面带来了很大的性能提升。然而,这种网络也在结构最优化原则(architecture optimality)中暴露了其局限性。

论文链接:http://cv.snu.ac.kr/publication/conf/2017/EDSR_fixed.pdf


摘要:近期关于超分辨率(super-resolution)的研究已经随着深度卷积神经网络(DCNN)的发展而进步了。残差学习的方法(residual learning )尤其能展现出其性能表现的提升。在本篇论文中,我们研发了一种增强型深度超分辨率网络(enhanced deep super-resolution network —— EDSR),其性能表现超越了那些当前最新型的 SR 方法。我们的模型之所以有显著的性能提升是因为我们在优化时去除了传统残差网络中的不必要模块。另一个原因就是,在使训练过程保持稳定的情况下,我们扩展了模型的规模 。我们也提出了一种新型的多尺度深度超分辨率系统(multi-scale deep super-resolution system —— MDSR)和训练方法,它可以在一个单一模型中,对升规模因子(upscaling factors)不同的超分辨率图像进行重构。这种方法在基准数据集中展现了超过当前一流方法的优越性能,并且通过赢得 NTIRE2017 超分辨率挑战赛证明了它的卓越性。

图 1:我们的单尺度 SR 方法(EDSR)与其它算法的 ×4 超分辨率结果的对比情况。

图 2 :原始 ResNet、SRResNet、和我们的残差模块的对比。


我们对比了每个网络模型(原始 ResNet、SRResNet、和我们提出的网络)的基础模块。我们在我们的网络中去除了批归一化(batch normalization)层 (Nah et al. 在他们的图像去模糊相关工作中提出的方法)。由于批归一化层使特征标准化,同时它们也去除了网络中的范围柔性(range flexibility),所以最好去除这些批归一化层。这一简单的修改可以大幅增加性能表现。

再者,GPU 的内存使用率也会显著减少(因为批归一化层会消耗与之前卷积层等量的内存)。

与 SRResNet 相比,我们没有批归一化层的基准模型,在训练过程当中大概减少了 40% 的内存使用率。因此,我们就可以创建一个更大型的模型,它在计算资源有限的情况下比传统 ResNet 有着更好的性能表现。


图 3:单尺度网络(single-scale SR network —— EDSR)结构。


我们用我们提出的图 2 中的残差模块构造了基准(单尺度 —— single-scale)模型。其结构类似于 SRResNet ,但是我们的模型在残差模块之外并没有设置 ReLU 激活层。而且,我们的基准模型也没有残差缩放层(residual scaling layers),因为我们仅仅为每一个卷积层使用了64维的特征映射。在我们最终的单尺度模型(single-scale model —— EDSR)中,我们通过设置 B = 32 ,F= 256,比例因数(scaling factor )为 0.1 对基准模型进行了扩展。模型结构如图 3 所示。

当在升采样因子(upsampling factor)为 ×3 和 ×4 的时候,我们用预训练的 ×2 网络初始化了模型参数。这一预训练方法加速了训练进程,也提升了最终的性能表现,详见图 4 。对于升采样 ×4 的情况,如果我们使用了一个预训练的 scale×2 模型(蓝线),训练就会比随机初始化的训练(绿线)收敛的更快。

图 4:在 ×4 模型(EDSR)中使用预训练 ×2 网络的结果。红线表示绿线的最优性能。使用 10 张图片用于在训练过程中进行验证。


从图 4 中的观察结果我们得出结论,多尺度情况下的超分辨率是具有相互关联性的任务。我们利用 VDSR 的尺度间相关性创建了多尺度结构,从而进一步探索了这个想法。我们设计了带有一个单一主分支的基准(多尺度 —— multi-scale)模块 ,含有 B = 16 的残差模块,所以大部分参数都可以在不同尺度间进行共享,如图 5 所示。

在我们的多尺度结构中,我们引入了尺度特定(scale-specific)的处理模块,以在多尺度下控制超分辨率。首先,预处理模块被置于网络的前端,以减少不同尺度的输入图像的变化幅度,每一个预处理模块包括两个 5×5 内核(kernels)的残值区块(residual blocks )。通过在预处理模块中采用较大的内核,我们可以使尺度特定的部分保持浅层(shallow)状态,在网络的早期阶段可以覆盖较大的接受域(receptive field)。


在模型的末端,尺度特定的升采样模块被并行放置,以进行多尺度重构。其升采样(upsampling)模块与单尺度模型中的情况相类似。

图 5:多尺度 SR 网络(multi-scale SR network —— MDSR)结构。


表 1:模型规格。


图 6:本文模型与其它方法在 ×4 超分辨率的情况下的质量比较。


图 7:我们在 NTIRE2017 超分辨率挑战赛的结果图(在未知降尺度 ×4 类别下的结果)。在这次挑战赛中,我们把训练中的 0791 到 0800 的图像排除在外以用于验证。我们没有对未知的降尺度(downscaling)类别使用几何性自集合(geometric self-ensemble)。

结论


本篇论文提出了一种增强型超分辨率算法,通过在传统 ResNet 结构中去除不必要模块,在保持模型紧凑的情况下提升了性能表现。通过采用残差缩放(residual scaling )方法来对大型模型进行稳定的训练。这里提出的单尺度模型超越了现有模型,展现出了一流的水准。


此外,作者提出的多尺度超分辨率网络降低了模型尺寸和训练时间。通过使用尺度依赖型(scale-dependent)模块和共享型主网络,我们的多尺度模型可以在一个统一框架中有效地处理不同尺度规模的超分辨率。


理论理论论文计算机视觉卷积神经网络超分辨率
3
暂无评论
暂无评论~