颉宇作者

从《互联网趋势2017报告》看智能语音领域的大变化

今日凌晨,“互联网女皇”Mary Meeker在Code大会上发布了《互联网趋势2017报告》,作为解读科技行业内部重大发展趋势的科技圣经,其权威性以及前瞻性不言而喻。在本次的报告中,女皇再次多次提及包括机器学习、图像及语音识别在内的人工智能相关内容。在2016年的报告中我们已经发现语音交互领域方兴未艾,而且,在这一年的时间里,各大AI行业的巨头都在正相在语音交互领域抢夺一席之地,那么,在一年之后,相比2016年,语音交互领域经历了怎么样的变化呢?跟随着女皇的脚步,我们可以一探究竟。

1.    语音即将取代打字,成为主流

       在过去的75年中,每隔十年就有新的人机交互方式涌现。从一开始的信息打孔卡、键盘、控制杆,到随后的基于窗口的图形界面,鼠标,以及基于触控和摄像头的移动计算设备,最后到今天的语音计算界面。在2016年5月,有数据显示,来自移动端的请求仅有20%是由语音发出的,而到了2017年5月,来自语音的询问达到了70%!

语音交互方式本身对于用户来说是一种解放。人打字平均每分钟只能达40个单词,而说话平均每分钟可以说150个单词,这种快速的交流方式,可以获得更大的信息量。而且语音操作简单,即时的、随时的彻底解放双手,双眼,在家居,车载环境中最为适用。除此之外,计算机可以根据之前交代的背景信息以及语音内容进行语义分析,理解交互的大环境,实现个性化的定制。而且源于语音界面得天独厚的特点。语音的载体-声波不容易受障碍物遮挡和昼夜变化的影响,这就扩展了我们的交互空间。语音作为自然进化选择的交互手段,其能量消耗也是所有交互手段中最低的。同时,语音界面具有随时访问、分层图形用户界面的特点。而且,语音交互所需的麦克风、扬声器等器件成本更低,更容易小型化。

从20%到70%的提升,证明的是语音交互距实现与人类生活完美融合的无限贴近——我们已经进入了语音交互的时代。

2.    基于家用平台,智能音箱掀起新革命

2014年11月6日,亚马逊在官网低调地上线了一款搭载智能助手 Alexa 的智能音箱—— Amazon Echo。然而2015年,这款产品一举占据了整个音箱市场销量的 25%,比2014年增加了 1200%  。据国外研究机构统计, Amazon Echo 在 2016 年卖出了超过 650 万台,相当于在13亿人中,每200 人中就有一个人参与了购买。从2014年到2017年,亚马逊的echo在美国市场的安装量和第三方应用插件的数量不断增加,echo成为了购物+媒体的集合,其相关升级产品echo look和echo show为echo安装了双眼,增加了购物推荐、视频、语音通话功能。Echo 控制智能家居最早是从灯泡开始,而现在,它能控制的智能家居产品越来多,这款智能音箱可能成为未来智能的家居枢纽,使用者只要通过简单的语音指令,echo就可以调动家居系统中的其他成员完成很多日常琐事。

在echo之后,各大巨头也步步紧跟,纷纷想要通过智能音箱这个接口打造自己的智能家居生态系统——由智能音箱而起的战争已经打响

3.    语音识别率取得新突破

什么是人工智能?这个概念现在已经非常难定义了。香港中文大学的汤晓鸥教授认为,人工智能真正落地的部分就是深度学习。有了深度学习之后,我们可以把这个过程变成一个数据驱动的过程——当做某一件特定事情时数据量及参数量大到一定程度时,机器就可能在做这件事情上超过人类。很多现实中落地的产品化的东西,大部分是深度学习做出来的,比如说:语音识别

机器学习深度学习已经驱动Google的语音识别率从2013年的不足80%,提升至如今的95%。以前的人工智能确实是在很多情况下用不起来,人手设计的智能还是比较难超越人来做某一件事情。而如今,随着深度学习的不断进行,某一件事情可以做到极致。从2013年语音识别准确率不到80%,到如今的95%,奇迹已经在发生,语音智能在不远的将来也会让人觉得不可或缺。

小结

智能语音领域方兴未艾,逐鹿者们是否能把握风向再创奇迹,我们拭目以待。

产业机器学习图像识别语音识别深度学习智能语音
1
相关数据
人机交互技术
Human-computer interaction

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章