压缩效率第一!腾讯音频实验室联合武汉大学获得CVPR 2018图像压缩挑战赛单项冠军

CVPR 2018 图像压缩挑战赛(CLIC)结果已经出炉,腾讯音视频实验室和武汉大学陈震中教授联合团队于该项挑战赛上取得压缩性能第一。

CVPR 是计算机视觉领域的顶级会议。今年,CVPR 新增了图像压缩 workshop 和挑战赛议程,这场挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络深度学习等一些新的方式引入到图像压缩领域。

据大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指标上占据领先优势,在决赛数据集上比第二名高了 0.13 dB,位列第一。在其他指标上,iipTiramisu 也位居前列。

挑战赛结果地址:http://www.compression.cc/results/?sort=psnr

峰值信噪比(PSNR)衡量的是压缩前后两张图逐像素统计所产生的误差,峰值信噪比越高,代表两张图误差越小,也就意味着压缩后的图与原图越接近、图片质量损失越小。

iipTiramisu 在峰值信噪比上有显著的优势,与业界最优秀的开源图像压缩算法之一 BPG 相比: Fig.1 The Rate-PSNR curve of different encoders. (bit-rate range 0.05-0.35 bpp)

信噪比不变的情况下,在性能优先模式下 iipTiramisu 比 BPG 节省 30.8% 的码率,速度优先模式下比 BPG 节省 27.9% 的码率;

(a) Compressed by BPG, bit rate:0.14 bpp, PNSR:31.45 dB. (b) Compressed by iipTiramisu, bit rate:0.14 bpp, PNSR:33.03 dB

在码率都为 0.14 bpp 的情况下,iipTiramisu 的峰值信噪比比 BPG 高 1.58 dB,质量损失率明显减少。

据陈震中教授介绍,iipTiramisu 团队使用了基于传统混合框架(hybrid image coder)融入深度学习的编码模块 CNNMC 以及 CNN in-loop filter,以及基于不确定性的资源分配策略,最终可以在数据集压缩性能上比 BPG 提升 30% 以上。

iipTiramisu 由腾讯音视频实验室硅谷研发中心和武汉大学陈震中教授团队联合组成。陈震中教授是武汉大学教授、博导,青年千人,主要从事计算机视觉、图像视频处理、人机交互数据挖掘等方向的研究,近年来发表国际期刊会议论文 120 多篇,拥有 50 余项国际国内标准(H.265/HEVC/AVS)提案、10 余项国际国内专利申请或授权。腾讯音视频实验室和陈震中教授团队在图像视频处理、人工智能等领域展开了深入的合作。

图像压缩技术对于互联网信息传输有至关重要的意义。一张未经压缩的 1200 万像素的图片就会占用 36MB 的存储空间,而目前网络上每天图片传输、存储数量数以亿万计,为了节省带宽资源、存储资源,减少服务器的压力,高效的图像压缩算法必不可少。 

据介绍,腾讯音视频实验室在图像压缩领域有很深的积累,去年 5 月,该实验室推出了一种基于 AVS 的自研图片格式 TPG,其压缩效率也显著领先于 JPG/JPEG、PNG、GIF、WEBP 等主流的图片格式。今年 5 月,TPG 还因为在 AVS 标准制定和推广中做出的突出贡献,获得了 AVS 工作组颁发的年度 AVS 产业技术创新奖。

产业
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

人机交互技术
Human-computer interaction

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

图像压缩技术
Image compression

图像压缩是数据压缩技术在数字图像上的应用,目的是减少图像数据中的冗余信息,从而用更加高效的格式存储和传输数据。图像压缩可以是有损数据压缩也可以是无损数据压缩。

噪声技术
Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。 近年来监督式深度学习方法(以反馈算法训练CNN、LSTM等)获得了空前的成功,而基于半监督或非监督式的方法(如DBM、DBN、stacked autoencoder)虽然在深度学习兴起阶段起到了重要的启蒙作用,但仍处在研究阶段并已获得不错的进展。在未来,非监督式学习将是深度学习的重要研究方向,因为人和动物的学习大多是非监督式的,我们通过观察来发现世界的构造,而不是被提前告知所有物体的名字。 至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据挖掘技术
Data mining

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

推荐文章
极端图像压缩的生成对抗网络,可生成低码率的高质量图像
机器之心2
研学社·系统组 | 实时深度学习的推理加速和持续训练
机器之心
图鸭科技获CVPR 2018图像压缩挑战赛单项冠军,技术解读端到端图像压缩框架
机器之心1
返回顶部