Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

国内智能音箱那么火,为什么用户的口碑那么差?

关于“Jawbone烧光十亿清算离场”的新闻令大家唏嘘不已,这个曾被估值 30 亿美元的明星公司就这样轰然倒塌。如今,当人们津津有味的评论Jawbone所代表的可穿戴设备市场兴衰之时,也有人开始怀疑如今大火的智能音箱是否也会重复Jawbone的老路?

智能音箱的火爆进程


提起智能音箱,大家最耳熟能详的莫过于“亚马逊Echo、谷歌Home、苹果HomePod和微软Invoke”这四款堪称智能音箱界的“四大天王”了。而这其中的翘楚,便是亚马逊的Echo了。

   亚马逊从2014年11月第一批音箱正式出货,多次蛰伏起落,直到2017年初在拉斯维加斯CES上大放异彩。截至2016年年底,亚马逊Echo智能音箱销量超过600万台,根据市场预测2017年销量将突破千万台。对于Amazon来说,除了Kindle之外,又有了一件满意的硬件产品,终于突出重围,摆脱了多年的硬件之殇。而这款产品也成功的在巨头间掀起了新一轮竞争博弈。

2016年谷歌I/O开发者大会上推出了智能硬件产品Google Home。

2017年苹果WWDC大会上发布了备受期待智能音箱HomePod。

2017年5月微软和哈曼卡顿宣布将发布联合研制的Cortana智能音箱Invoke。

目前智能音箱产品似乎已经成为美国市场的爆款产品,而伴随着这样汹涌的风潮,国内的智能音箱市场也从暗流涌动转至如今的血雨腥风。无论是百度、阿里、腾讯、京东、小米、联想等互联网巨头,还是传统的智能家居如海尔等厂商都开始摒弃观望的态度,正式杀入智能音箱这个本是蓝海,却早已经厮杀成红海的大市场。

  • 美国CES结束后,联想、海尔相继加入智能音箱产品阵营;

  • 国内早期推出智能音箱产品的叮咚、Rokid 等也分别发布了新一代的音箱产品;

  • 6月份,喜马拉雅FM正式发布了其首款全内容AI音箱小雅;

  • 7月份,阿里AI Labs发布其国内首款购物音箱天猫精灵 X1;

  • 同一时期,百度、腾讯分别推出自家的语音开放平台 Duer OS和小微,表示将倾力打造AI语音交互新生态,助力智能音箱厂商快速开发落地。

    

厂商的狂欢 用户的旁观

    

如今,国内智能音箱市场如火如荼,所有厂商皆摩拳擦掌、跃跃欲试,然而用户却似乎并不买帐。

  • 据网上统计的一组数据显示京东旗下的叮咚智能音箱 2016 年整体销量为 10 万台。

  • 而根据国内咨询公司提供的分析数据显示,目前国内智能音箱月销量不到 2 万台。

  • 海外市场研究公司Counterpoint Research表示今年中国智能音箱市场的出货量大概200万台左右。

  • 而根据极光大数据的一份统计数据显示,目前智能音箱用户占有率并不乐观。

《凰家评测》的主持人评测了天猫精灵X1,表示天猫精灵X1的确可以带来开口就能买买买的体验。然而,等待回答时间过久,回答问题不正确,没有想象中的智能等问题也成为了用户所诟病的不足。

《什么值得买》众测对于联想智能音箱的负面评价也站了大半:语音智能简直鸡肋,除了装逼外,我个人感觉他还是做一个安安静静的美丽音箱就好了。人机交互运用到实体设备上,新意满满,只是现在未免诸多不足,2米要靠喊、识别错误、找不到想要的内容,不能安静的听歌……美美哒意境被“正在为你播放……”所打败。

《品玩》的媒体记者在评论文章中也表示智能音箱是不是一个“卧槽指数”够高、“时间新鲜度”也够高的产品还有待考验,也许智能音箱最后的下场,可能跟智能手表差不多。

国内音箱厂家太过急躁

为什么会出现这样的现象?即便智能手环也不像智能音箱这样遭到了国内如此众多的吐槽!国外和国内的智能音箱市场反馈几乎就是两个极端。这可能主要有三个主要原因:

一、东西方市场的差异

        显然,国内外市场对待智能音箱的看法和理解是存在很大差异的,这还有个文化阻碍的问题,或许是东西方文化差异的结果。语言是社会文化的产物,离开了文化就没什么语言可言了。语言又是社会文化的写照,不仅反映社会文化的形态,而且语言结构也反映了人们的价值观念。显然,不同国家的语言习惯是千差万别的,由于各民族生活的环境不同,由此而形成的文化内涵和语言习惯自然不同。毫无疑问,东西方由于文化的巨大差异,其语言表达方面也存在巨大的差异。而这种差异也决定了类似智能音箱的普及速度。

       另外,音箱这个品类本身就不具备快速增长的潜力,而且音箱的消费群体相对还比较碎片化。这从数据上也能看出来,即便现在最为成功的Amazon Echo,其销量也是逐年累加的,并没有出现爆发式增长。

二、国内技术储备不足

       当然,这其中还有技术层面的问题,我们发现用户评论中几乎都会提到远场难以唤醒、语音识别不准或者不够智能等等问题。这涉及到了麦克风阵列技术、远场语音识别技术和语义理解技术三个核心链条,实话来说,这三大核心技术其实没有成熟到用户随意使用的程度,或多或少都存在很多技术难点和应用障碍。比如当前的人工智能大部分采用机器学习技术,这就依赖大量数据,而数据又要依靠产品来采集,这就进入了鸡生蛋蛋生鸡的循环。也就说,所有产品都很难避免"冷启动"的尴尬,那早期用户的批评也就非常容易理解了。

技术的成熟总是有一个周期,而且依赖数据的机器学习技术随着数据的累积性能提升也非常快速。麦克风阵列技术可能是个例外,这还依赖于传统的声学信号处理技术,但是这个技术又和唤醒与识别紧密相连,所以数据的积累同样非常重要。稍令我们期待的是,国内的小米、百度、腾讯等还没有发布产品,而与此相关的供应商也在致力于核心技术的提升,相信还会有更多巨头发布相关的产品,这对于技术迭代来说至关重要。

三、国内厂商太过急躁

国内从事语音交互的公司其实不多,除了BAT巨头,就是搜狗科大讯飞云知声出门问问声智科技、蓦然、三角兽、Rokid,思必驰等公司,而且以创业公司为主,但是智能音箱的虚火显然影响到了一些公司的决策。据悉国内几个公司准备超越百度的开放策略,比如思必驰背靠阿里,直接启动了ASR免费策略,并且补贴1亿鼓励开发用户。

免费和补贴的目的当然是希望获取更多的用户以抢占先机,毕竟国内的语音交互厂商志向高远,也希望能做成Alexa的生态。但是对于目前的生态构建来说这是否是一个良策还有待考量。

即便移动时代的Android各家也有各自的UI,AI不可能短时间改变用户个性化、差异化的需求。另外一点就是,毕竟O2O补贴、智能硬件免费时代所带来的血淋淋的教训还在眼前。当前AI企业几乎都难以盈利,即便科大讯飞主营收入还是系统集成,其最大的利润仍然是政府补贴,根据财报,最近连续3年其获得政府补贴都超过了1个亿。

      除了上述之外,对于国内巨头和产品厂商来说,他们也有其各自的诉求,毕竟大家都想掌握产品把控权。其实际上,即便Alexa的生态也还没有形成闭环,何况Amazon的野心绝不是仅做一个Alexa,他们肯定是奔着搜索的目标,否则也不至于经常降价根本不顾及生态厂商。所以,不管是国内的语音交互厂商,还是国内的智能产品厂商,在当前技术不成熟,生态不闭环的情况下,急躁冒进不是一个良好的策略。各家厂商之间,竞合应该是未来长期存在的关系,而且彼此合作的机会应该更大一些。

短期严峻但是长期乐观

智能音箱的整个市场还没有形成,而且音箱这个品类本身就不具有类似手机和PC一样的爆发性。所以短期内智能音箱并不会产生很好的销量,因此最佳的手段就是学习亚马逊通过巧妙的手段度过“冷启动”的阶段,仔细打磨好用户体验,这可能决定了未来谁能主宰智能音箱这个市场。而急躁冒进的一些厂商,很可能就会重蹈5年前那波著名创业公司的覆辙。

语音交互肯定有非常大的潜力,但是现在还处在一个摸索的阶段,智能音箱只是一个很好的突破点,将来肯定会衍生出众多的应用,甚至重构整个消费电子行业。但是目前来看,整个智能家居还没有形成生态,智能音箱短期内很难扩展到其他领域。当前这个阶段,最重要的还是应该探索出来人工智能时代的商业模式。

       

 -End-

声学在线
声学在线

产业语音识别语音助手智能音箱产业
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。

http://corp.sogou.com/
声智科技机构

声智科技是融合声学和人工智能技术的平台服务商,致力于实现“让机器更智能”的使命,达成“用科技改善生活”的愿景,主要提供SoundAI Azero智能操作系统和服务,以及深度结合应用场景的人工智能技术和产品解决方案,典型应用于智能家居、智能会议、智能教育、智能医疗、智能制造、智能汽车、金融科技、能源电力、智慧法院、智能交通和机器人等领域,是全球最大的智能语音技术和平台服务商之一。

http://www.soundai.com
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市。

http://www.iflytek.com
出门问问机构

出门问问成立于2012年,是一家以语音交互和软硬结合为核心的人工智能公司,为全球40多个国家和地区的消费者、企业提供人工智能产品和服务。出门问问的使命是定义下一代人机交互,让人和机器的交互更自然。公司自主研发并建立了完整的“端到端”人机交互相关技术栈,包括声音信号处理、热词唤醒、语音识别、自然语言理解、对话管理、垂直搜索、智能推荐、语音合成、知识图谱等,并始终保持国际前沿技术水平。ToC场景推出了以智能手表TicWatch系列和无线耳机TicPods系列为主的可穿戴设备组合,ToB层面已为物联网、金融、电信、健康养老、餐饮、车载等企业级场景提供服务。

https://www.chumenwenwen.com/
思必驰机构

思必驰是国内领先的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代的人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT、以及众多行业场景合作伙伴提供自然语言交互解决方案。 思必驰拥有上千项知识产权,是国际上极少数拥有自主知识产权、中英文综合语音技术的公司之一;与阿里、腾讯、小米、富士康、OPPO、长虹、顺丰、龙湖地产等企业达成战略合作;旗下人工智能产业基金累计投资20+家生态企业。

http://www.aispeech.com/
云知声机构

云知声专注于物联网人工智能服务,是一家拥有完全自主知识产权、世界顶尖的智能语音识别、语义理解等技术的高新技术企业,总部位于北京,在上海、深圳、厦门、合肥设有子公司。公司员工500余人,核心研发团队近百人,其中 45% 拥有博士学历,工程师占比78%,拥有雄厚的科研和产业化实战能力。 云知声深入探索感知智能、认知智能、通用智能三大方向,在语音、语言、知识计算、大数据分析、人工智能芯片等领域建立了领先的核心技术体系,以此构建了完整的人工智能技术图谱。并率先在国内布局大规模异构并行超算平台 Atlas 和深度学习计算框架 UniFlow ,以领跑行业发展的技术实力,助力 AI 基础设施建设,服务国家 AI 战略。 基于“云、端、芯”技术产品体系,提供跨平台、跨场景,融合云端智能和本地智能一体化的 AI 系统解决方案,已在 AI 生活(家居、车载等)和 AI 服务(医疗、教育、政务、金融等)两大核心场景广泛落地。 目前合作伙伴数量已超过 2万家,覆盖用户已超过 2亿,日调用量超 4亿次,其中语音云平台覆盖的城市超过 647个,覆盖设备超过 1 亿台。 云知声自 2012 年成立以来,发展迅猛,备受人工智能行业及资本市场关注,累积融资数亿美元,并多次创下AI语音领域单轮融资记录。云知声连续两年入选福布斯中国最快科技成长公司 50 强企业,是中国人工智能行业成长最快的创业公司之一 。

https://www.unisound.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~