从买不起专业卡到语音 IoT 独角兽,揭秘云知声从 0 到 1 的进阶之路 | 专访

By 微胖2017年8月12日 11:26

撰写 | 王艺

编辑 | 藤子


从有计算机开始,人类就想对着它说话。


这一愿望终于在 2000 年前后得以实现,美国语音巨头 Nuance 的语音识别应用 Dragon Dictation 以及 IBM 发布的商用语音系统 Viavoice 开启了人类解放双手的革命。Viavoice 是一款面向桌面的语音输入工具,它稍显笨拙,使用者需要对着 Viavoice 朗读文本半小时,来对系统做预训练。在此后的很长一段时间里,人机对话始终停留在这样「不怎么聪明」的层面。当时,基于统计的大规模连续语音识别虽然在实验数据上取得了较好的效果,但在真实复杂口音和噪声环境下的实用性很差,市场在短暂的惊喜过后很快失去信心。


情况在 2010 年得以好转,这一年,神经网络在各项测评中开始碾压传统的统计学习方法。2011 年,时任微软首席研究员的邓力、俞栋发表了一篇题为 Large vocabulary continuous speech recognition with context-dependent DBN-HMMS 的论文,验证了将深度学习用在语音交互领域的可能性,且相较于传统的机器学习方法,使用深度学习能够使识别错误率下降 33%。在此之前最好的情况是,通过技术的不断演进与优化,语音识别的错误率平均每年至多可以降低 10%。这意味着,深度学习的应用,使得语音识别技术向前跨越了三年,且显著优化了复杂噪声场景下的体验。至此,国内语音行业变得热闹起来。

从云平台到终端芯片

云知声就是在那时成立的,当时,语音从业者多为中科大、中科院等少数高校和研究所背景。云知声创始人兼 CTO 梁家恩也不例外,他毕业于中科大,博士毕业于中科院自动化所,并曾担任盛大语音创新院高级研究员。


2012年,他和几位语音老手一起,带领云知声从四块游戏显卡开始,一步步成长为如今估值 10 亿美金的独角兽。目前,云知声主打 IoT 领域的语音集成方案,客户涵盖美的、格力、长虹、海尔、海信、TCL 等家电厂商;中国电信、联想、英特尔、高通、中兴、乐视、小米、高德地图等 IT 企业;通用汽车等车企;全通教育等教育机构;且其医疗语音识别技术已在协和医院等十多家医院落地使用。


在云知声的创业初期,语音市场远不像今天这样成熟,技术找不到成功的商业落地模式。当时,在语音赛道上领先的两位选手——已经起跑十余年的科大讯飞和捷通华声靠政府和企业级订单生存,并不是云知声合适的效仿对象。「在语音这样的新兴行业里,谁都不是标准答案。」梁家恩说。云知声决定从 B 端做起,与行业共同推动市场成熟,再深入 C 端,走 B2B2C 的路线。


和所有的 AI 公司一样,云知声在起步初期面对的首要问题是数据。当时,深度学习技术还未走出实验室,想要提高识别与理解的准确率,一定需要大量的数据支持。本着收集数据和培育市场的目的,云知声决定从云平台入手,以向开发者提供免费 SDK 的方式吸引语音从业者使用云知声的技术,产生数据,构成良性循环。


一年内,云知声先后成为搜狗语音助手、乐视超级电视、易信等产品背后的耳朵,并在 iOS AppStore 上线微信语音插件,曾连续一周排名免费工具第一位。并且为了弥补其与竞争对手相比数据上的差距,云知声在三个月内攻克并上线了深度学习技术,成为国内首个使用深度学习技术的语音云平台。


「当时我们深度学习上线后,听说整个讯飞研究院加班了半年。」梁家恩笑道。


通过比较云平台上开发者们所从事的项目及其收益,加上自身与大厂的合作经验,云知声坚定了自己曾经判断的两个「不能」。第一,不能跟风作手机语音助手;第二,不能做 ToC 产品。


梁家恩表示,手机助手在当时是个伪命题,用户活跃度很低。推广时能达到 10%,不推广的话可能只有 1%-2%。这样的活跃度不足以支撑一个商业模式。相比较来看,乐视电视上的语音助手使用率能够达到 30%-40%。


他由此判断,语音交互和硬件的深度结合是未来的方向。而在产品方向上,梁家恩决定不做 C 端产品。因为要做一个好的单品,比如音箱,背后需要很多内容服务的整合,营销渠道的梳理。「我们是技术公司,那些不是我们的强项,我们希望将更多的精力放在打磨技术上面。」梁家恩说。


渐渐地,云知声摸索出适合自己的发展道路——面向 IoT 产业的人工智能服务。那几年,智能硬件方兴未艾,万物互联是大势所趋。


据梁家恩的观察,在未来,电视、冰箱、空调、台灯、汽车,都需要能听懂人说话,IoT 产业下的语音业务大有可为。在需求如此旺盛的市场大环境下,云知声惋惜地发现,其云平台上的 IoT 设备开发者们不能真正地用好平台提供的 SDK,因为 IoT 是软硬一体的学问,仅优化软件层面无法创造出好的产品。


惋惜的同时,云知声看到了商机,以云平台为根本,深入终端,将硬件部分打包,统一解决。2014 年 3 月,云知声提出「云端芯」战略,这是从云平台到设备语音交互,再到设备语音专用芯片与麦克风阵列的集成式解决方案。


云知声是业内为数不多自己设计语音芯片的厂商之一。最开始,为了验证「云端芯」智能交互方案的可行性,云知声的语音芯片基于通用芯片进行设计,整合远讲降噪和语音识别模块。芯片成本高,功耗大,这对于 IoT 设备是两个致命的问题,只能从高端、插电的设备做起。


因为成本方面,现有芯片成本普遍在百元以上,不能满足如台灯等小设备的成本需求;功耗方面,如今白色家电上市需配有绿色环保标志,功率需要压至几百毫瓦,然而采用通用芯片的解决方案,功耗在几瓦的量级,不符合工业量产的需求。


云知声将通用芯片中与语音交互无关的单元裁掉,同时增强语音降噪和识别所需的计算能力。 2015 年与长虹合作,推出了第一款符合工业级要求的面向语音识别的深度学习加速芯片。2017 年,云之声开始独立自主研发芯片 UniOne 并计划于 2018 年量产,按照需求量计算,量产规模将在百万级以上。

不断打破又建立的阶段性壁垒

近两年,巨头涌入语音市场,一些云知声曾经的客户,如阿里云,开始组建自己的语音团队。阿里推出智能音箱天猫精灵一号,京东推出叮咚音箱,百度开放其语音平台,出门问问与大众成立合资公司,科大讯飞刚刚庆祝其输入法用户突破 5 亿。随着语音技术的逐渐成熟,市场也愈发拥挤。作为较早入局的语音玩家之一,云知声表示「有自己的优势」。


从创业初期,云知声就能够预见到未来巨头的参与,并豁达地认为单凭自己的力量不足以推动整个产业,巨头的加入利大于弊。虽然巨头的资源整合能力以及对人才的吸引力都很强,但梁家恩表示,巨头的赶超不会那么快。因为云知声在远讲、降噪、低功耗方面,都有自己的优势。


「我们有自己的壁垒,任何一个新入局的玩家首先都要解决算法与工程结合的问题,我们花了大概两年时间走过这些坑。」梁家恩说,「这是时间维度的问题,不是人多人少的问题。」


逆水行舟,任何技术层面的壁垒与优势都是阶段性的,因此云知声亟需在壁垒被攻破之前建立新的。梁家恩认为,这个新的壁垒来源于数据和用户。云知声希望通过优化体验增加用户粘性。道理类似 BAT,他们之所以成为巨头,是因为有足够大的用户粘性。现在再出现一个类似微信、QQ、淘宝的产品,显然不会有市场。


另外,云知声业务的主要方向——白色家电产业不似 IT 产业短平快,他们的研发周期长,导致方案替代成本高。产品一旦进入量产阶段,竞争对手的性能必须显著超越原方案,厂家才有替换合作方的动力。云知声计划加紧与 B 端伙伴的配合,使紧密的合作成为其另一个阶段性壁垒。


不论是加强用户体验,还是与厂家紧密合作,其根本还是要落在技术的先进性上。目前,云知声的语音识别准确率已经超过 98%,远讲识别准确率超过 95%,而现在所有语音厂商都称自己的识别准确率在 97% 以上。但梁家恩反复强调,数字没有意义,因为测验所在的环境、语料没有统一的度量。


在数字的维度之上,云知声的语音技术经过 B 端厂商的严格验证。例如,对于语音助手来说最基础的唤醒功能,虽然目前已不再是技术难点,然而在实际应用场景下更加重要的误唤醒率却很少有人提及。美的、格力等家电厂商为了保证自己的产品质量,要求云知声的解决方案在 24 小时内的误唤醒少于一次,且测试环境为充斥着家庭噪声、音乐声、新闻联播声的实际应用场景。在家电厂商的强力推动下,云知声死磕误唤醒率,最终达到了工业级的量产要求。

未来底层技术突破方向:语用计算和情感分析

梁家恩表示,目前语音识别整体的技术框架已经非常成熟,虽然还有一些问题需要解决,但可以交由时间逐步收敛。真正的问题在于语义交互。


当前,自然语言处理技术还停留在「有多少人工才有多少智能」的阶段,对数据打标签做预处理需要大量的人力参与,且只能针对不同垂直领域进行理解,没有统一的成熟的框架。像微软小冰需要解锁新能力,Alexa 有一万五千个技能,都是因为当前的技术解决方案只能对各个垂直领域进行单独的优化。另外,机器识别人类情绪的方面也需要突破,目前机器只能识别人类非常极端的情绪,比如大笑、大哭、非常生气。对于稍微微妙一些的情绪,机器是束手无策的。


基于此,云知声将语用计算以及情感分析作为未来底层技术的突破方向。其正在打磨的语用计算框架拥有关联上下文以及信息检索的能力,加之回声消除技术和无效语音判定技术,能够支持流式交互的多轮对话。另外,云知声与中科院自动化所成立了联合实验室,围绕智能交互问题展开研究,例如口语表达的规范化、用计算机(而非人工)构建可扩展的知识库等等,将科研院所探索到的可靠的新方法放在实际应用场景中进行打磨。


过去五年,云知声完成了商业模式的量产验证;未来五年,梁家恩希望云知声能在技术和商用层面均有突破。在感知技术上继续提升精度和稳定性,拓展感知维度;在认知技术上提升智能水平;并结合产品交互设计、云端芯架构、用户大数据建模等,打造面向物联网的完整 AI 方案,为家居、车载、医疗、教育等领域用户提供全新的智慧生活体验,实现云知声 Just for Smart Life 的愿景与使命。


声明:本文由机器之能(微信公众号:almosthuman2017)原创出品,版权归作者所有,转载请查看要求,机器之能对于违规侵权者保有法律追诉权。