哈尔滨工程大学作者学校肖健 在读博士本文作者生成对抗网络,视频处理,目标检测。研究方向

ICCV 2019 | RankSRGAN:基于排序学习的生成对抗超分辨率重建方法

前言

本文将对ICCV2019的Oral论文《RankSRGAN:Generative Adversarial Networks with Ranker for Image Super-Resolution》进行解读。

这篇文章聚焦于利用生成对抗网络(Generative Adversarial Networks,GANs)解决单幅图像超分辨率重建(SISR)问题。为了进一步改善超分辨率重建结果的视觉质量,PIRM2018-SR挑战使用了如PI、NIQE和Ma等与人类评价等级高度相关的感知指标来评价重建的感知质量,但现有方法无法直接优化这些感知指标。为此,该文提出了带有排序器Ranker的超分辨率重建网络--RankSRGAN,用感知指标优化生成器G。

该方法首先训练一个可以学习感知指标行为的Ranker,然后引入一个新的rank-content loss(内容排序损失)来优化感知质量。最令人瞩目的是,该方法可以结合不同SR方法的优势来产生更好的结果。大量实验表明,RankSRGAN在视觉效果方面取得了令人愉悦的效果,并在感知指标方面达到了最优的性能。

论文地址:https://arxiv.org/abs/1908.06382

源码地址:https://wenlongzhang0724.github.io/Projects/RankSRGAN

论文作者:Wenlong Zhang,Yihao Liu,Chao Dong,Yu Qiao(中国科学院深圳先进技术研究院,先进院-商汤联合实验室)

研究方法

单幅图像超分辨率重建旨在从一幅低分辨率(LR)图像重建或生成一幅高分辨率(HR)图像。近期基于CNN的SISR研究逐渐增多,主要分为两类:一类是将SR视为重建问题,利用MSE作为损失函数以获得高PSNR值;另一类方法是将SR转换为图像生成问题,以获得更好的视觉质量。第二类方法能获得更加逼真的重建图像,该文就是研究这种感知SR方法。

感知SR方法面临的最具挑战性的问题是评估,依靠人类主观判断不可靠也不公平。为了解决这个问题,该文提出了许多与人类评价高度相关的无参考图像质量评估(NR-IQA)指标,例如NIQE(相关系数0.76)和PI(相关系数0.83),PIRM2018-SR挑战已成功使用了这些指标。但是这些NR-IQA指标大多数是不可微分的,例如它们包括手工特征提取或统计回归操作,因此无法用作损失函数来优化网络。

为了使感知指标能用于优化网络,进一步提高重建质量,作者提出了一个通用且可微分的模型--Ranker,该模型可以模拟任何NR-IQA指标,并提供明确的目标(作为损失函数)以优化感知质量。Ranker是一个孪生CNN,它通过学习排序方法来模拟感知指标。Ranker与标准的SRGAN模型一起形成一个新的感知SR框架--RankSRGAN(带有Ranker的SRGAN)。所提出的框架还具有rank-content loss(内容排序损失),用训练好的Ranker来度量输出图像质量,这样SR模型可以针对特定的感知指标稳定地优化。图1显示了RankSRGAN的结果,它融合了SRGAN和ESRGAN的图像效果并获得了更好的NIQE得分(NIQE值越小越好,PSNR值越大越好)。

作者进行了全面实验证明了所提出方法的有效性。总结本文的贡献有三点。(1)提出了一个通用的感知SR框架--RankSRGAN,该框架可以利用不可微分的感知指标优化生成器,并实现了最先进的性能。(2)本文首次利用其他SR方法的结果来构建训练数据集。所提出的方法结合了不同SR方法的优势,并产生了更好的结果。(3)所提出的SR框架具有高度的灵活性,并且在构造的不同数据集,感知指标和损失组合的情况下产生多种结果。

图 1 RankSRGAN与其它感知SR方法的比较

RankSRGAN是在基于GAN的SR方法上建立的,它包含一个生成器和一个判别器。判别器网络区分是真实图像还是超分辨率重建的结果,训练生成器网络来愚弄判别器。为了获得更自然的纹理,作者通过利用感知指标的先验知识为标准SRGAN增加额外约束,以提高输出图像的视觉质量。RankSRGAN的整体框架如图2所示,主要包括三个阶段。

图 2 RankSRGAN的整体框架

阶段一:利用感知度量生成不同SR方法的重建图像,获得rank数据集。首先在公开的SR数据集上生成不同SR方法的超分辨率重建图像;然后在生成的图像上应用选定的感知指标(例如NIQE),之后选出内容相同的图像组成图像对(即相同图像经不同SR方法得到的HR图像组成的图像对),并根据感知指标计算出的图像质量得分对图像对进行排序。最后就获得了成对图像和对应的排序标签(标签的分配规则是:最好的NIQE值标记为1,即重建质量好的、NIQE值低的用1标记)。

阶段二:训练Ranker。Ranker采用孪生网络结构来学习感知指标的行为,Ranker具有两个相同的网络分支,其中包含一系列的卷积、LeakyReLU激活、池化和全连接层。在特征提取器之后使用全局平均池化GAP层,这样网络可以摆脱输入大小的限制。为了得到排序得分,使用一个全连接层作为回归器来量化排序结果。注意这里并不是预测感知指标的实际值,而是只关注排名信息。最后,两个分支的输出构成margin-ranking loss,这样我们可以计算梯度并应用反向传播来更新整个网络的参数。训练好的Ranker应该具有根据图像感知得分对图像进行排序的能力。

阶段三:训练重建网络RankSRGAN,判别器D的损失与SRGAN中的相同,生成器G的总损失包含三部分:感知损失、对抗损失和rank-content loss。其中rank-content loss由阶段二用训练好的Ranker给出,是本文方法新引入的损失函数,能使标准SRGAN生成视觉逼真的图像。

实验

作者进行了全面的实验证明所提出方法的有效性。

1.为了验证Ranker的有效性,作者比较了两种排序策略--度量排序(metric rank,本文提出所使用的方法)和模型分类。实验证明了度量排序可以组合不同算法的优势,并超过单个算法的上界。

2.作者用DIV2K数据集训练RankSRGAN,在Set14、BSD100和PRIM-test测试不同算法的性能,评价指标有NIQE、PI和PSNR(NIQE、PI值越低表示视觉质量越好),测试结果如下表所示。在NIQE和PI两个指标上,本文的RankSRGAN都比SRGAN和ERGAN性能更好,重建图像感知质量的提升是以牺牲PSNR为代价的。图3给出了不同方法重建的结果,RankSRGAN重建的图像具有更真实的纹理而不会引入其它伪像。

图 3 不同方法超分辨率重建结果

总结

针对超分辨率重建问题,本文提出RankSRGAN来优化面向感知指标的SR模型。关键思想是引入Ranker,通过排序学习来学习感知指标的行为。RankSRGAN可以结合不同SR方法的优势并产生更好的结果。大量的实验很好地证明了RankSRGAN是一个灵活的框架,可以在感知度量指标上取得最优的性能,并且能够恢复更逼真的纹理。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论ICCV 2019生成对抗网络排序学习
3
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

图像超分辨率重建技术

超高分辨率成像(Super-resolution imaging,缩写SR),是一种提高影片分辨率的技术。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

LeakyReLU技术

ReLU是将所有的负值都设为零,保留正值;相反,Leaky ReLU是给所有负值赋予一个非零斜率,即x<0时,y=α·x。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~