Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

压缩效率第一!腾讯音频实验室联合武汉大学获得CVPR 2018图像压缩挑战赛单项冠军

CVPR 2018 图像压缩挑战赛(CLIC)结果已经出炉,腾讯音视频实验室和武汉大学陈震中教授联合团队于该项挑战赛上取得压缩性能第一。

CVPR 是计算机视觉领域的顶级会议。今年,CVPR 新增了图像压缩 workshop 和挑战赛议程,这场挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络深度学习等一些新的方式引入到图像压缩领域。

据大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指标上占据领先优势,在决赛数据集上比第二名高了 0.13 dB,位列第一。在其他指标上,iipTiramisu 也位居前列。

挑战赛结果地址:http://www.compression.cc/results/?sort=psnr

峰值信噪比(PSNR)衡量的是压缩前后两张图逐像素统计所产生的误差,峰值信噪比越高,代表两张图误差越小,也就意味着压缩后的图与原图越接近、图片质量损失越小。

iipTiramisu 在峰值信噪比上有显著的优势,与业界最优秀的开源图像压缩算法之一 BPG 相比: Fig.1 The Rate-PSNR curve of different encoders. (bit-rate range 0.05-0.35 bpp)

信噪比不变的情况下,在性能优先模式下 iipTiramisu 比 BPG 节省 30.8% 的码率,速度优先模式下比 BPG 节省 27.9% 的码率;

(a) Compressed by BPG, bit rate:0.14 bpp, PNSR:31.45 dB. (b) Compressed by iipTiramisu, bit rate:0.14 bpp, PNSR:33.03 dB

在码率都为 0.14 bpp 的情况下,iipTiramisu 的峰值信噪比比 BPG 高 1.58 dB,质量损失率明显减少。

据陈震中教授介绍,iipTiramisu 团队使用了基于传统混合框架(hybrid image coder)融入深度学习的编码模块 CNNMC 以及 CNN in-loop filter,以及基于不确定性的资源分配策略,最终可以在数据集压缩性能上比 BPG 提升 30% 以上。

iipTiramisu 由腾讯音视频实验室硅谷研发中心和武汉大学陈震中教授团队联合组成。陈震中教授是武汉大学教授、博导,青年千人,主要从事计算机视觉、图像视频处理、人机交互数据挖掘等方向的研究,近年来发表国际期刊会议论文 120 多篇,拥有 50 余项国际国内标准(H.265/HEVC/AVS)提案、10 余项国际国内专利申请或授权。腾讯音视频实验室和陈震中教授团队在图像视频处理、人工智能等领域展开了深入的合作。

图像压缩技术对于互联网信息传输有至关重要的意义。一张未经压缩的 1200 万像素的图片就会占用 36MB 的存储空间,而目前网络上每天图片传输、存储数量数以亿万计,为了节省带宽资源、存储资源,减少服务器的压力,高效的图像压缩算法必不可少。 

据介绍,腾讯音视频实验室在图像压缩领域有很深的积累,去年 5 月,该实验室推出了一种基于 AVS 的自研图片格式 TPG,其压缩效率也显著领先于 JPG/JPEG、PNG、GIF、WEBP 等主流的图片格式。今年 5 月,TPG 还因为在 AVS 标准制定和推广中做出的突出贡献,获得了 AVS 工作组颁发的年度 AVS 产业技术创新奖。

产业图像压缩神经网络CVPR 2018计算机视觉腾讯武汉大学
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像压缩技术

图像压缩是数据压缩技术在数字图像上的应用,目的是减少图像数据中的冗余信息,从而用更加高效的格式存储和传输数据。图像压缩可以是有损数据压缩也可以是无损数据压缩。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~