南京理工大学ICCV 2017论文:MemNet,图像超分辨率模型

利用卷积神经网络让图片清晰化的研究目前正成为计算机视觉领域的热点方向。近日,南京理工大学邰颖、杨健、许春燕与密歇根州立大学刘小明等人提出的 MemNet 将技术又向前推进了一步,新模型在图像去噪、超分辨率和 JPEG 解锁任务中的表现均超过此前业内最佳水平。该研究已入选 ICCV 2017 Spotlight 论文,将在十月底于威尼斯举行的大会上进行演讲。



论文链接:https://arxiv.org/abs/1708.02209

GitHub 链接:https://github.com/tyshiwo/MemNet

摘要

近期,深度卷积神经网络(CNN)在图像复原领域吸引了大量注意力。然而,随着深度的增加,这些深度模型很少意识到长期依赖问题(long-term dependency problem),这会导致前面的状态/层对后续的状态/层几乎没有影响。受到人类思想持续性的激励,我们提出了一个深度持续记忆网络(deep persistent memory network,MemNet),该网络引入了一个包含递归单元(recursive unit)和门控单元(gate unit)的内存块,以通过自适应学习过程明确地挖掘持续记忆。递归单元学习当前状态在不同接受域(receptive field)下的多层表征(multi-level representation)。这些表征和之前内存块的输出被合并并发送至门控单元,门控单元自适应控制应保留多少先前状态,并决定应储存多少当前状态。我们使用 MemNet 执行三种图像复原任务:图像去噪(image denosing)、超分辨率(super-resolution)和 JPEG 解锁(JPEG deblocking)。实验证明使用 MemNet 的必要性,且它在三种任务上的表现都很优秀,超出目前业内最佳水平。代码地址:https://github.com/tyshiwo/MemNet。


图 1. 之前的网络结构(a、b)和我们的内存块(c)。蓝色圆圈代表递归单元,它的无折叠结构可生成短期记忆。绿色箭头指来自之前内存块的长期记忆,直接输入到门控单元。


图 2. 基础 MemNet 结构。红色虚线框指多个堆栈内存块(stacked memory block)。


图 3. 多监督 MemNet 结构。紫色的输出受到监督。


图 4.(a)×4 超分辨率图像和不同网络的 PSNR/SSIM。(b)通过整个每个同心圆周围的光谱,我们将 2-D 功率谱转换成 1-D 谱密度。(c)两个网络中谱密度的差异。


图 5. 过滤器权重指标 Vm vs. 特征地图指数(feature map index)l。第 m 个块的曲线中,左侧的 (m × 64) 元素代表长期记忆,剩下的 (Lm − m × 64) 元素代表短期记忆。柱形图表示长期记忆、来自第一个 R − 1 递归的的短期记忆和来自最后一个递归的短期记忆的平均指数。如,黄色柱形代表递归单元中最后一个递归的短期记忆的平均指数(即,每个曲线的最后 64 个元素)。


图 7. 图像去噪定性比较。第一行是来自 14-图像数据集、噪声水平 30 的图像「10」。只有 MemNet 修复了褶皱。第二行是来自 BSD200、噪声水平 70 的图像「206062」。只有 MemNet 能够准确地修复柱子。


图 8. SISR 的定性比较。第一行是来自 BSD100、缩放因子×3 的图像「108005」。只有 MemNet 准确修复了图案。第二行识来自 Urban100、缩放因子×4 的图像「img_002」。MemNet 修复了尖锐的线条。


图 9. JPEG 解锁的定性比较。第一行是来自 Classic5、质量因子为 10 的图像「barbara」。MemNet 修复了线条,而其他网络输出的结果比较模糊。第二行是来自 LIVE1、质量因子为 10 的图像「lighthouse」。MemNet 精确地修复了人造边界(blocking artifact)。

理论计算机视觉论文南京理工大学ICCV 2017邰颖理论