陈孝良特约撰稿

智能音箱,什么时候才能让我们满意?

现在,全球智能音箱的销量累计超过了五千万台,从口碑和用户频次来看,智能音箱成为了全球消费电子领域最成功的人工智能产品,而人工智能的标杆IBM Watson以及AlphaGo缔造者DeepMind却受到了普遍的质疑和批评。

为什么会这样?

人工智能这个产业其实并没有问题,问题就在于人工智能的过度宣传把消费者的预期拉高了,实际上现在的技术和产业链条并没有达到预期的高度,自然我们就会很失望。

想想也是,我们本来订了个五星级酒店,进去后才发现只有三星标准,能不失望吗?要知道,消费者是要掏腰包的,当与预期不一致,必然就会用脚投票,人工智能厂商也没什么可抱怨的。

其实,“人工智能”这个词本身也有点问题,我们人类几千年文明,科学没能理解宇宙,哲学似乎也没搞懂智慧。

那什么是“人工智能”呢?

从图灵的探索开始,到现在我们有一个准确的定义吗?不过人工智能确实拓展了人类对于未来的想象,很适合科幻作品但不适合产品广告,产品永远关注的是用户体验,当然性价比也很重要,噱头只能是锦上添花,不能本末倒置。

至少,我们人类的生活还没有从人工智能中普遍受益,比如智能教育没有改变孩子上学的窘境,智能医疗没有缓解医疗资源的紧张,自动驾驶更不可能解决堵车的难题,也不要指望扫地机器解决家庭卫生问题,不受其累就很不错了。

当前的人工智能若不是瞄准人类社会日益膨胀的资源冲突和利用效率问题,很大可能会第四次跌成低谷…….

并非危言耸听,从Google的搜索趋势来看,人工智能的跌落指数也仅次于区块链了。我们应当记得,二十年前IBM的“深蓝”利用象棋与大师对弈,同样也引起了极大关注。

智能音箱其实是幸运的,毕竟还有全球五千万用户掏了腰包,说明这至少是一款消费者认可的产品。

但是智能音箱真的智能吗?

估计大部分用户并不这样认为,从数据统计来看,更多的用户其实只是认可远场语音交互技术带来的便利,想听首歌更简单了一些,当然也有一些用户仅是尝鲜,更资深的一些用户则要挑战一下所谓的智能了。

其实迭代到现在,智能音箱还真有点“智能”的味道,虽然大部分技能闲置,也没有Killer技能出现,但从用户频次和应用需求来看,也还算不错的结果,而且用户通过远场语音与机器自由交互的习惯确实逐渐形成了,这也是巨大的进步,为未来打开了巨大的想象空间。

国外的数据分析显示,智能音箱的重度用户,音乐已经不是其第一需求,游戏、玩笑、日历、购物、交通应用的比重已经越来越高了。

毕竟,人类身边的机器越来越多,这是趋势,抛开智能不说,人类也希望能有更好的方式与众多的机器连接。连接这个事情,其实就是这三十年互联网和移动互联网专注的事情,再早一点就是邮政系统和电话网络,只不过关注的都是人与人之间的互联罢了。

显然,未来更需要解决人类与机器的互联问题,甚至还要解决机器与机器的互联问题(人人互联,人机互联,then,机机互联?)。

但是人机互联与人人互联不同,仅仅连接是不行的,2010年兴起即衰落的智能硬件验证了这一点。

新的互联必然是新的时代,但是这仍然需要基础技术的进步,比如移动互联的元素——智能手机,相比PC电脑集成了更多传感,包括GPS在内的很多传感蕴育了诸如LBS等很多新的商业模式,便捷的麦克风和摄像头也是视频社交的核心基础。

从这个层面来看,新的传感必然也会带来新的机会,当然,新的交互则可能是真正的革命。从按钮、键盘到鼠标、触摸屏都是时代变革的显著信号。

所以,人机互联必须找到一个人类与机器沟通的高效入口,远场语音恰好就充当了这个角色,注意一定不能是近场语音,语音的天然优势就是解放了双手,近场语音把这个事情搞复杂了,况且远场语音天然覆盖了近场语音。

声比光的魅力就是不见其人,先闻其声,近场语音把劣势当卖点显然很难成功。

从人机互相适应的角度来看,远场语音交互率先做到了从“人类学习机器”到“机器学习人类”的交互革命,这个变化实际上正在悄然发生。

我们做过一个调查,体验过智能音箱的用户,基本都不需要说明书,一句话告知就能马上使用,并且不久就会反馈智能音箱学习指令不够智能这类问题。这很有意思,因为PC时代我们拿到电脑首先就是学习鼠标以及打字,即便智能手机时代,也要简单学习触屏技巧,大部分时候是埋怨自己而不是机器,新的时代真的是不一样了。

实际上,我们很多的科学进步都是基于仿生或者启发于自然现象的思考,像爱因斯坦那样天马行空的是极少数。既然如此,人机交互就应该像人类之间交流那样自然,但是技术现在能做到吗?好像看论文听报告可以,但声光电热力磁哪个学科真正能到这个高度?

我们刚刚有点模式识别和自动化的成果,就不要沾沾自喜,从来也没看人类这样称赞自家小孩:我们家孩子太聪明了,都认识爸爸妈妈啦。

况且,人工智能即便这一点还没做到,不管是远场声纹识别还是远场人脸识别。儿童从任何角度和距离都能辨识人或动物,至今还没有机器能够这样,特别是不要相信一些媒体夸大的产业成果,跑个测试集合得到的实验结果不具有普适性。

即便声智科技,主要就是解决类人的远场自由交互问题,也远远还没有达到在远场环境下对于人或动物声音的这种辨识程度。

看似简单的一个仿生能力,其实非常非常难,就说一个小小的智能音箱,其技术就包括了如下极长的链条:传感技术(标量传感、矢量传感)、芯片技术(通用芯片、专用芯片)、声学技术(声源测向、波束形成、回声消除、盲源分离、混响抑制、噪声抑制、语音增强、语音编码、3D音效等)、语音技术(语音唤醒、端点检测、语音识别、声纹识别、哼唱识别、环境识别、语音合成等)、语言技术(语义纠错、语义理解、情感识别等)以及内容服务等。

用户会关心这些吗?不会的,用户只关心满不满足需要,是不是简单好用!

那现在这些技术的水平怎样了?

客观的说也就在70分左右,确实落地能用了,但是距离用户满意还有一段距离。当然,用户抱怨最多的还是智能和内容问题,这已经不仅仅只是技术问题了,这涉及到诸多产业链重构的问题。

但是技术也不要沾沾自喜,诸多问题实际上也还没有解决。比如噪声复杂的工业场景、风吹日晒的户外场景、多人讨论的会议场景、全车对话的汽车场景等等,传感、芯片、声学、语音和语言技术都还有诸多难题没有解决。有一点需要明确,深度学习不代表人工智能,计算机学也无法解决物理学的根本性问题。

实际上,远场语音交互技术应用的产品领域越来越多,已经覆盖了音箱、机顶盒、电视、冰箱、手机、平板、汽车等,其用户需求也在不断迭代,这就需要更多新的技术来满足这些需求。

比如当远场语音交互技术应用到智能机顶盒的时候,就凸显出一个问题,毕竟盒子与音箱不同,音箱从器件到结构都是前期设计,可以巧妙绕开很多开放性技术问题,比如自噪声抑制算法必须采集质量很高的参考信号。

但是盒子就不行了,盒子作为一个配件必须兼容市面上所有型号的电视,这就有两个严重问题:首先就是盒子的HDMI输出音频不可能同时采集到参考信号,旁接线的方法影响用户体验绝对不能采纳,其次就是每家电视都会有独特的声学设计和音质调校,同一个盒子在不同电视输出的声音也千差万别。

那怎么解决这个问题?

这就需要OpenAEC技术,这是声智科技全球独创的技术,主要解决弱参考信号或者无参考信号等更为复杂场景的回声抵消(自噪声抑制)问题,在电视节目多变、音量很大的情况下也能保证语音交互的性能。

对于手机、平板这类小屏市场,则是另外的技术需求,声纹和唤醒显得为重要,这主要考虑到了隐私问题。儿童玩具的市场其实难度更大,低功耗和儿童语音唤醒和识别都还有差距,主要也是因为不同年龄段的儿童发音特征太过复杂。

安防市场则是典型的超远场特征,麦克风阵列需要拾取5米以外的声音,五米以内的声音需要尽量抑制,更为复杂的则是户外传感的问题。至于汽车领域,后装和前装对比也面临着需求差异的问题,比如前装产品就要考虑全车语音交互的需求。

从长远来看,远场语音交互的核心瓶颈就在拟人化和个性化。当前的远场语音还是有很严重的机器属性,这对于人类来说是一个心理障碍,至于个性化,目前的智能音箱基本上还是一个账号多个用户使用的状态,显然这两点会影响到人机交互的效率和个性需求的满足。

但是,随着产品的普及和用户的认可,技术的迭代速度也会更快,从技术发展的脉络来看,至少是越来越接近用户的预期。比如声智科技正在大规模部署声纹识别的服务,这将有利于改善个性化的一些问题。

但是,当前市场的产品也令人担忧,智能音箱现在是越做越便宜。若能保证用户体验,追求性价比自然是必要的,但是智能音箱还没到这个程度。

首先智能音箱的产品品质并不出色,比如远场交互性能,算法还需要不断改进,场景也需要不断拓展,传感和芯片更要大幅提升性能以支持更复杂的计算,即便是音质,智能音箱一直就做的不好。

其次就是智能音箱还没有清晰的盈利模式,便宜的产品必然没有太大利润率,苹果和小米就是清晰的对比,若想获得更大毛利,就不得不把重心移到内容服务,但是内容服务也需要硬件支撑,这和智能手机总是不断提升性能是异曲同工。

从长远来看,消费升级是必然趋势,人们追求美好生活的愿望是真实不变的,不能因为短时间的市场问题就对未来丧失了信心,那些在某些下沉电商购买仿冒品牌的客户,早晚都会升级成真正品牌厂商的客户。

归纳来说,人工智能还是处于技术和场景的萌芽阶段,智能音箱作为一个突破口带给了市场极大的信心,但是人工智能怎么助力产业结构调整还真需要认真琢磨。

人工智能其实非常需要精巧的设计,只有将技术与产品完美的融合在一起,巧妙避过技术的缺陷,充分尊重和挖掘用户的需求,才能真正获得用户的口碑,而口碑则是品牌的基石,也是贡献利润的根本。有一点是肯定的,只有赚钱的产品和企业,才能维持技术的不断迭代,满足用户日益增长的需求。

若我们国内的人工智能产业能够如此良性循环,我们科幻描绘的未来世界就不会遥远!

AI锐见
AI锐见

洞察AI行业趋势

产业智能音箱
2
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
声智科技机构

声智科技成立于2016年4月,是一家专注声学前沿技术和人工智能交互的科技创新公司,致力于引领真实环境下更自由的人工智能交互体验,实现“听你所言,知你所想”的人机交互愿景。

http://www.soundai.com/
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

语音增强技术

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

IBM 沃森技术

沃森是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员David Ferrucci所领导的DeepQA计划小组开发并以该公司创始人托马斯·J·沃森的名字命名。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~