jiaxu、李馨瑜、云舟编译

被《硅谷》选中的「压缩算法」,为什么说下一个机器学习杀手应用将由此诞生

移动互联网时代,人类生产的新数据正以指数级别增长,数据中心越来越大,并消耗着地球上难以想象的巨大能耗,但人类依然可能面临着“数据无处存放”的境地。

因此,让文件变小一点,这绝对是个值得投资的点子。

神剧《硅谷》剧组就选中了这个点子。在剧中,几个主角的得以创业成功的核心算法——“魔笛”即是选中了“压缩”这一多数人都能理解但对技术要求颇高的领域:允许用户在线将图片压缩至一半的大小,并依然保持其清晰度。

“魔笛算法”也一度引发了不少跟风打造属于自己的“魔笛手”,此外,包括谷歌等人工智能巨头公司近年来也在这个领域频频发力。

2016年,谷歌相关团队推出了一款叫RAISR(Rapid and Accurate Image Super-ResoluTIon)的图像压缩技术。希望以人工智能技术作为压缩路径,将图片大小压缩到源文件的1/4, 但基本不会改变图片的清晰度。

尽管引来如此高的关注,但很多人还是不认可它会在未来的发展中取得压倒性的优势。谷歌的RAISR算法也被不好业内认识吐槽说“压缩一张图片耗时久”、“压缩后图片清晰度没有那么高”等等。

谷歌机器学习工程师、Jetpac创始人Pete Warden近期发布了一篇文章,认为在短期内压缩算法可能会成为机器学习应用最可能出现的杀手级应用的领域,他从“压缩”这一技术的起源开始,希望告诉大家问什么压缩技术的前景是如此的广阔。

大数据文摘对这篇文章进行了编译。

OSDI上的一篇文章“神经自适应型内容感知互联网视频传输”激发了我对这一领域的兴趣。

文章链接:

https://www.usenix.org/conference/osdi18/presentation/yeo

这篇文章告诉我们:通过神经网络,在带宽相同的条件下,用户体验将能提高43%,或者在带宽缩减17%的条件下可以保持体验的质量基本不变。还有其他同类的论文将类似方法运用在了生成压缩或自适应图像压缩等方面。他们都展示出了惊人的成果。那么,为何我们不把机器学习更广泛地应用在文件压缩方面呢?

我们尚未拥有性能配套的计算设备

上文所提到的所有方法都需要相对较大的神经网络,并且所需的计算量与像素数量成正比。这意味着大型图片文件或每秒帧数较高的视频文件可能需要比当前广泛使用的移动设备更强的计算能力。

现行的大多数CPU每秒仅能处理百亿级的运算,而在高清视频上用机器学习进行压缩很轻易便能达到十倍于此的计算量。

当然,好消息是目前我们已经有了一些硬件解决方案,比如Edge TPU等,可以让我们看到未来达到更多计算量的可能性。我期待这种压缩方法能够运用到各种类型文件的压缩转换上,从视频到图像,到音频,乃至更多充满想象力的方式。

自然语言是终极压缩目标

近来机器学习自然语言处理中取得了大量有趣的成果。这是另一个让我觉得机器学习是较为优越的压缩转换途径的原因。

如果你稍稍观察,便会发现字幕其实是将声音压缩为图像的一种形式。我一直想做一个项目,试图创造出一种相机,每秒生成一帧字幕,并将所有字幕逐一按行输出至一个日志文件中。由此便可简单记录下基于相机的拍摄内容随时间的推移而发生的故事,这可以被定义为一个叙事类的传感器。

我将这一技术归类到压缩方法中的原因是你可以通过生成性的神经网络将字幕还原为图像。尽管重新生成的图像不会跟原图像完全一致,但也能够从原图像继承一些信息。如果你希望结果与原图像尽可能接近,你也可以从风格化方面考虑,例如为每个场景生成简图。这些技术的共同特征在于他们提取出了输入文件中对于我们人类重要的部分,并省略了余下的部分。

不仅仅是图像

语言世界也有类似的趋势。语音识别正在迅速改进,合成语音的能力也在迅速提高。识别可以看作是将音频压缩为自然语言文本的过程,而合成则恰好相反。你可以想象将对话高度压缩为自然语言文字而非音频。诚然,我们不需要达到那种要求,但似乎通过扩展我们对于表达的认知类型,我们可以实现在低带宽情况下的更好的结果。

我甚至还发现一些有趣的将机器学习应用在文本本身上的可能性。Andrej Karpathy的CHAR-RNN(递归神经网络)展示了神经网络对某些模板进行模仿的优越性,而对于压缩技术来说,预测也是相同的道理。考虑到普通的HTML页面有不少冗余,这一情况下GZIP压缩方法似乎有很大机率能被机器学习改进,尽管我认为这没有机器学习对文本的处理那么容易。

对于压缩的研究已立项拨款

在我创业期间,营销失败的经历让我学到了一件事:如果已经有一笔预算要购买你所推销的产品,该产品的销售会容易得多。预算的存在意味着公司在是否应该花钱购买解决方案上已经赢得了艰难的斗争,现在唯一的问题是购买哪种解决方案。

这也是我认为机器学习可以在这个领域取得巨大突破的原因之一,因为制造商已经拥有专门用于视频和音频压缩的工程师、资金和芯片。如果我们能够证明将机器学习添加到现有解决方案中能够以一些可度量的方式(例如质量、速度或功耗)改进它们,那么它们将被快速采用。

带宽将会花费用户和运营商的大量的成本,质量和电池寿命将会成为产品的卖点,因此采用机器学习改进压缩的优势将比其他运用更为显而易见。

许多激动人心的研究表明这种方式将会非常高效,而且我乐观地认为还有许多应用尚未被发掘。我希望机器学习在压缩中的应用将发展成为一门核心技术。

相关报道:

https://petewarden.com/2018/10/16/will-compression-be-machine-learnings-killer-app/

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论图像压缩机器学习NLP神经网络语音识别
2
相关数据
人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

大数据技术
Big data

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

图像压缩技术
Image compression

图像压缩是数据压缩技术在数字图像上的应用,目的是减少图像数据中的冗余信息,从而用更加高效的格式存储和传输数据。图像压缩可以是有损数据压缩也可以是无损数据压缩。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来也机构
Laiye

来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

推荐文章