郑书新、刘畅作者

ECCV 2020 | 对损失信息进行建模,实现信号处理高保真还原

编者按:信号在我们的日常生活中随处可见,例如:声音、图像、视频等。然而在信号的传输或存储过程中,往往会面临信号失真、质量变差等问题。今天这篇文章就来探讨一下信号处理中的信息丢失问题,其中包括微软亚洲研究院机器学习组与北京大学在 ECCV 2020 上发表的 Oral 论文《可逆图像缩放》(Invertible Image Rescaling)等工作。

大家是否有过这样的经历:自己拍摄的高清照片/视频,想通过社交账号分享给朋友,然而对方接收到的却是一张低分辨率的模糊照片,甚至有些图片或表情包在经过多次传播之后,糊到惨不忍睹。

这种情况是由于程序为了减轻服务器端的传输和存储压力,主动对信号进行了采样、压缩等操作,而这些操作会不可避免地引起信息丢失(information loss)的问题,造成对原始信号还原的挑战性。直到今天,信息丢失问题仍没有被很好地解决。这篇文章将探讨信号处理中的信息丢失问题,其中包括的微软亚洲研究院机器学习组与北京大学在 ECCV 2020 上发表的 Oral 论文《可逆图像缩放》(Invertible Image Rescaling)工作则以图像信号为例,探讨了图像的压缩或缩放后的还原问题。

图像压缩算法是将原始图像压缩为比特流,图像缩放算法则是将高清图像降采样为低分辨率图像,在实际应用中,二者常结合使用。

图1:图像压缩与缩放任务此前的通用方法是使用 Encoder-Decoder 框架对降采样(压缩)和升采样(重建)进行建模,并使用大规模的深度学习模型来取得较好的还原效果。然而,上述框架存在一个严重的问题:最后一步从低维信息中还原原始图像的过程是一个典型的不适定 (ill-posed) 问题。

何为不适定问题?以4个像素点的图像降采样为例:

上图有4个像素,值分别为1,3,5,7。假设对原图进行双线性插值降采样(Bilinear Interpolation),得到像素值为4的低分辨率图片。那么,如何从这一个像素还原出原图呢?这个问题非常难求解,因为有无数多种4个像素取值的组合都可以得到同样一张低分辨率的图片。如果是 4x 降采样,则会有16个像素被采样成一个点。这种不适定问题的产生,就是由于求解过程中的信息不完全所导致的。在降采样的过程中存在着不可逆的信息丢失, 以至于仅从剩余的不完全信息中无法很好地还原回原图。

对于图像缩放任务中的不适定问题,此前的做法一般是使用一个超分辨率的卷积神经网络,尝试从大量的数据中强行学习低分辨率到高分辨率的映射关系;或者使用编码器(encoder)网络对原图进行降采样,同时使用解码器(decoder)网络还原图片,二者进行联合训练(jointly training)来达到更好的效果。但以上这些方法都没有从本质上解决不适定问题,效果也不尽如人意。

图2:基于 DNN 的 Encoder-Decoder 结构对图像进行缩放和还原不适定问题的产生是由于信息的丢失,那么具体是什么信息被丢失了呢?

“High-frequency content will get lost during sample rate conversion.” 

——Nyquist-Shannon Sampling Theorem

香浓-奈奎斯特采样定理解释说,正是由于高频信息的丢失导致无法很好的还原高清原图。那么如果“保留”这些高频信息呢?

图3:经小波变换拆分成低频与高频分量的图片可以被小波逆变换完整恢复成原图片为了可以显式地保留高频信息,如果将降采样的过程替换成了小波变换,由小波变换可以得到原图的一个低频分量和三个不同方向的高频分量。可以看到,这里的低频分量与双线性插值降采样得到的低分辨率结果是一样的,而高频分量则是在降采样过程中被丢失的信息。

当选择保留全部信息时,可以使用小波变换的逆变换(即反函数,有 , 则其反函数 ),轻松地将原图恢复出来。同理,对于使用 DNN 进行降采样的图片,如果保留了全部信息,那么也可以使用 DNN 的反函数将原图恢复回来。

图4:使用 DNN Encoder 的逆函数、并保留损失的信息即可完美还原原始图像对于深度学习模型这样一种复杂的非线性函数,它的反函数又是什么呢?这就要用到可逆神经网络(Invertible NN, INN)模型。对可逆神经网络模型不熟悉的读者朋友,推荐阅读博客 Flow-based Generative Model:

https://lilianweng.github.io/lil-log/2018/10/13/flow-based-deep-generative-models.html

研究员们采用了最简单的可逆架构形式(请注意这里只采用了可逆架构,但建模方式与 Flow-Based 模型不同),且可逆神经网络是严格可逆的。也可以从另一个角度来思考这个问题,即降采样和升采样本来就是一对逆任务,那是否应当使用可逆神经网络

图5:使用可逆网络和其逆网络来代替 DNN Encoder 与 Decoder有了可逆神经网络模型,就可以把之前的 Encoder-Decoder 网络换成 INN 和它的反函数,这样,如果可以保留全部信息,那么就能够完美恢复出原始的高清图片。然而,在存储、传输低分辨率图片时系统无法附带这些本应被丢失的信息(低分辨率图片的维度+丢失信息的维度=原始图片的维度),而丢弃的这些信息又导致无法使用 INN 来恢复出原图。到这里,好像又陷入了一个两难的局面,那有没有什么聪明的做法可以解决这个问题呢?回顾一下前面的简单例子:

图6:对图像缩放任务中的损失信息建模此时,对于与样本无关的 ,可以放心地将其丢弃。而当需要恢复原图时,可以在高斯分布中进行采样来得到 。需要注意的是,整个过程并不是完全没有信息丢失,这是因为研究员们使用了高斯分布中的一次随机采样来代替符合该分布中的一个特定样本点。但是由于 INN 已经学习到如何将符合高斯分布的点(结合 )恢复为与样本相关的 ,因此相对于此前完全忽视不适定问题的做法,则可以从本质上缓解求解不适定问题所带来的困难。该方法在图像缩放任务上的提升也非常显著(如下表所示)。
表1:图像缩放任务在常见数据集上的表现(PSNR)除了性能的大幅提升,更重要的是,得益于建模方法尝试直接解决任务的本质问题,模型所需的参数量仅是此前方法的1/10~1/30。下面是效果的可视化,请注意绿色框中对原图的还原程度。
图7:效果可视化对于图像压缩任务同理,该方法可以使用对损失信息进行建模的思想应用在图像压缩任务中,使用服从高斯分布隐变量 来捕捉压缩过程中的信息丢失,从而帮助压缩图像的重建效果。对比此前的工作,该方法在压缩率与恢复效果上都有较大提升。
图8:图像压缩任务中对损失信息进行建模
图9:对图像压缩中损失信息进行建模在常用数据集上的效果在本篇文章中,研究员们探讨了信号处理中常见的信息丢失问题,并采用对丢失信息进行建模的思想,利用可逆神经网络来最大化还原原始信号,在图像缩放、压缩等任务上都取得了较大的提升。了解更多信息,可参考论文以及代码:

论文地址:https://arxiv.org/abs/2005.05650

相关代码和预训练模型:https://github.com/pkuxmq/Invertible-Image-Rescaling

参考:

[1] Nonlinear independent component analysis: Existence anduniqueness results

https://www.sciencedirect.com/science/article/abs/pii/S0893608098001403

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论ECCV 2020
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像压缩技术

图像压缩是数据压缩技术在数字图像上的应用,目的是减少图像数据中的冗余信息,从而用更加高效的格式存储和传输数据。图像压缩可以是有损数据压缩也可以是无损数据压缩。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

图像缩放技术

降采样技术

降采样是数位信号处理领域中的一种多速频数字信号处理(multi-rate digital signal processing)系统中采样率转换(sample rate conversion)技术的一种,或指代用来降低信号采样率的过程,与插值相反——插值用来增加取样频率——降采样通常用于降低数据传输速率或者数据大小。因为降采样会有混叠的情形发生,系统中具有降采样功能的部分称为降频器(decimator)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

双线性插值技术

双线性插值,又称为双线性内插。在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。 双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。

采样定理技术

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~