CVPR 是计算机视觉领域的顶级会议。今年,CVPR 新增了图像压缩 workshop 和挑战赛议程,这场挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。
据大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指标上占据领先优势,在决赛数据集上比第二名高了 0.13 dB,位列第一。在其他指标上,iipTiramisu 也位居前列。
挑战赛结果地址:http://www.compression.cc/results/?sort=psnr
峰值信噪比(PSNR)衡量的是压缩前后两张图逐像素统计所产生的误差,峰值信噪比越高,代表两张图误差越小,也就意味着压缩后的图与原图越接近、图片质量损失越小。
iipTiramisu 在峰值信噪比上有显著的优势,与业界最优秀的开源图像压缩算法之一 BPG 相比: Fig.1 The Rate-PSNR curve of different encoders. (bit-rate range 0.05-0.35 bpp)
信噪比不变的情况下,在性能优先模式下 iipTiramisu 比 BPG 节省 30.8% 的码率,速度优先模式下比 BPG 节省 27.9% 的码率;
(a) Compressed by BPG, bit rate:0.14 bpp, PNSR:31.45 dB. (b) Compressed by iipTiramisu, bit rate:0.14 bpp, PNSR:33.03 dB
在码率都为 0.14 bpp 的情况下,iipTiramisu 的峰值信噪比比 BPG 高 1.58 dB,质量损失率明显减少。
据陈震中教授介绍,iipTiramisu 团队使用了基于传统混合框架(hybrid image coder)融入深度学习的编码模块 CNNMC 以及 CNN in-loop filter,以及基于不确定性的资源分配策略,最终可以在数据集压缩性能上比 BPG 提升 30% 以上。
iipTiramisu 由腾讯音视频实验室硅谷研发中心和武汉大学陈震中教授团队联合组成。陈震中教授是武汉大学教授、博导,青年千人,主要从事计算机视觉、图像视频处理、人机交互、数据挖掘等方向的研究,近年来发表国际期刊会议论文 120 多篇,拥有 50 余项国际国内标准(H.265/HEVC/AVS)提案、10 余项国际国内专利申请或授权。腾讯音视频实验室和陈震中教授团队在图像视频处理、人工智能等领域展开了深入的合作。
图像压缩技术对于互联网信息传输有至关重要的意义。一张未经压缩的 1200 万像素的图片就会占用 36MB 的存储空间,而目前网络上每天图片传输、存储数量数以亿万计,为了节省带宽资源、存储资源,减少服务器的压力,高效的图像压缩算法必不可少。
据介绍,腾讯音视频实验室在图像压缩领域有很深的积累,去年 5 月,该实验室推出了一种基于 AVS 的自研图片格式 TPG,其压缩效率也显著领先于 JPG/JPEG、PNG、GIF、WEBP 等主流的图片格式。今年 5 月,TPG 还因为在 AVS 标准制定和推广中做出的突出贡献,获得了 AVS 工作组颁发的年度 AVS 产业技术创新奖。