云知声专注物联网人工智能服务, 通过 AI 芯、AIUI、AI Service 三大解决方案支撑核心技术的落地和实现,目前已经在家居、汽车、医疗和教育等领域有广泛应用,形成了完整的「云端芯」生态闭环。
机器之心于近期对云知声 CEO 黄伟进行了专访,黄伟介绍了云知声的技术研究、「云端芯」产品战略、在车载和医疗行业的应用,以及对人工智能看法。
记者/赵云峰
云知声 CEO 黄伟
一、云知声的技术研究
2012年底,我们把深度学习应用到了语音识别。我们今天的技术架构都在使用增强学习。
机器之心:这几年深度学习带来了语音识别的巨大进步,云知声是何时开始这方面研究的?
黄伟:2012 年 12 月底,我们把深度学习应用到了语音识别里,而且把它开放出来提供给第三方。这源于 2011 年,我去佛罗伦萨参加国际语音会议 Interspeech,当时和微软研究员俞栋就深度学习的交流给了我很大信心,后来,云知声在 2012 年 6 月份成立,9 月份我们发布语音识别平台,之后紧跟着 10 月份我们就开始做深度学习。
那时,几乎很少有创业公司敢于尝试这个领域,而且我们当时的资源也很匮乏,我们自己用了一个普通的服务器,然后又买了几块 GeForce 显卡,其实我们很早就开始用 GPU 了。2012 年年底,我们的深度学习系统将当时的识别准确率从 85% 提升到了 91% 。随后在 2013 年 2 月份,我们做了微信上的第一个语音输入插件,由于我们使用深度学习带来了准确率的明显提升,所以这款插件的用户体验非常好。
虽然我们很早把深度学习用于语音识别,但其实只是一个起步,当时公司刚刚成立几个月,不可能积累很多数据,所以当时我们的训练数据只有 800 小时,后来随着我们不断增加训练数据,今天我们的识别准确率已经能达到 97% ,属于业内一流水平,在噪音和口音等情况下性能也比以前更好。
机器之心:云知声近期主要在做哪方面的研究?比如说自然语言处理方面?
黄伟:我们还是有些超前意识的,今年 1 月份,就在 AlphaGo 火爆之前,我们就成立了 AI Lab,为什么可以做?首先,2012 年我们开始做深度学习,今天我们人工智能所有的应用层面,图像识别、人脸识别、语音识别、机器翻译和语音合成,所有的技术框架都基于深度学习,只是数字信号不一样而已。所以对我们来说,我们要从语音拓展到其他领域没有任何问题,但只是说我们现在要意识到人工智能是未来,现在我们要做这样的布局,这种布局不光是指你意识方面的改变,同时围绕这个目标你还要做人才储备和资源投入。从这方面来说,从去年开始我们一直对研发投入非常重视,每年在研发上的投入占到了 50% ,今年我们的研发投入预算和去年比超过了3倍。今年公司规模和团队规模也在扩大,我们还会在硅谷设立办公室,同时还会在一些新的技术方向进行储备和投入。
关于自然语言处理,我们在 2013 年 9 月份就发布了语义云平台,到目前为止我们在语言理解方面支持的领域超过 50 个,从 2013 年开始我们就在做这个事情。包括给乐视及其他厂商提供的解决方案里,都会包含信号处理的降噪部分、语音识别部分、语言理解部分、用于用户反馈的语音合成部分、以及用户画像和声纹识别等,我们提供的是完整的解决方案。
只是说,今天的语言理解我们还需要做的更好一些,比如以前做一些简单对话,那后面你会做一些复杂对话或者多种对话,这个需要我们不断投入。从技术来看,我们在语言理解方面,以及我们今天的技术架构都在使用增强学习。因为我们平台每天会产生大量数据,我们会对这些历史数据进行总结。但增强学习可以对未来数据进行预测。对于一个人工智能系统,你不能总是等犯错之后再去纠正。从这个角度来讲,增强学习是对未来一种行为的预测。这大大提升了我们对数据的利用效率。
二、云知声的发展模式和产品思路
未来一切智能都是从芯片开始的,芯片的智能化一定是通过云端实现的,云端智能渗透到用户里也一定是通过芯片实现。
机器之心:云知声自一开始就坚持平台策略,这种发展模式背后主要有哪些思考?
黄伟:我们是做公司,而非研究院,所以说技术指标只是 KPI 之一,我们还需要一些商业模式和产品模式的探索。
我们早在 2013 年就确定了平台战略,因为我认为人工智能的前提是感知智能,你一定要先完成数据的感知,那我们的平台就是一种最好的收集数据的方式。当年 App 大行其道,我需要非常费力的去给很多投资机构解释为什么我要做平台,而不是 App 。原因在于:1)用语音识别技术去做 App 意味着我要有 80% 甚至更多时间精力放在和产品有关的事情上,但任何一个公司在初创期精力都是有限的,你不可能同时有研究院、工程院,还有产品部门。2)做 App 之前要明确语音在手机上是不是刚性需求?其实直到今天,我本人也都依然对此持怀疑态度,我认为手机是以触碰为主,语音为辅的。3)我们认为平台战略的 B2B2C 方式是一种最快到达用户的方式,既然语音在手机端不是刚性需求,那你不要指望它有多少自然下载量和活跃用户,更不能指望它给你贡献多少有用数据。但 B2B2C 这个方式就可以帮你和应用场景结合,产品由你的合作方来做,用户由产品渠道来获取。这样的话,你就可以尽快的把用户规模和基数扩大。
在采取了平台战略后,我们的发展非常快,2013 年时已经积累了接近 10,000 家合作伙伴,和搜狗、乐视、华为等国内众多知名公司建立了合作关系。如果不是靠平台而是自己做 App 的话,我们是不可能达到这样一个量级的。
机器之心:云声音的产品思路是怎样的?是如何提出「云端芯」产品战略的?
黄伟:上面讲的是云知声关于未来发展模式的探索,在产品方面我们也一直在思考。最近你会发现,包括出门问问的李志飞、Face++的印奇等,这些做了3-4年公司以上的创始人都不会再过分强调技术了。所以我要讲的是,公司怎样在产品方面找到一个适合自己的通道。
其实我们在 2013-2014 年往外走时发现了一些问题。首先,并不是所有用户的场景都是联网的,联网不能解决所有问题;其次,SDK 的粘性比较弱,用户的切换成本较低。也无法为用户提供一种非常好的体验,因为软件能实现的功能毕竟是有限的,它可以模拟,但有时候必须要用硬件,甚至芯片级的去支持,软件是做不到的。基于这个问题,我们在 2014 年开始思考,未来的语音智能,甚至是人工智能是从哪儿开始的,以前我们的想法是把它放在云端,用户的数据回传然后在云端进行识别,麦克风和传感器等都是用户的,但后来发现这中间是很容易割裂的。所以,经过这样的思考我们认为,未来一切的智能其实都是从芯片端开始的,芯片的智能化一定是通过云端实现的,云端智能渗透到用户里也一定是通过芯片实现。芯片既像一个耳朵(收集信息)同时也承担了大脑的一部分功能。如果我们用 CPU 来模拟大脑功能的话,那我觉得大脑一定是由不同功能的 CPU 组合在一起的。从这个角度来讲,那人工智能也应该留在某种芯片上面实现一部分智能,这个芯片既像传感器(Camera和麦克风等),同时它也是大脑的一部分。
这就是我们在 2014 年上半年确定的事情,在业内最早提出了云端芯的产品战略,云是智能,端是交互,芯片就是传感器和一部分智能。
其实在那之前我对此也不是特别清晰,在 2014 年之前,我更多的还是想说怎么把技术做好,后来从 2012 年到 2014 年差不多两年多的时间里,我们的基础语音识别引擎已经步入正轨,后面只是算法的调试和数据的积累,把平均识别准确率继续提升,还有语音识别应用领域的拓展。这些都没有太多不确定性了。
这时对公司来说,最大的考验就是如何确定你的商业模式和产品模式,如何把你的壁垒建造起来。2014 年之后我们就想的比较清楚了,那就是我们坚定的做「云端芯」这种产品战略,所以在 2014 年我们在 B 轮融资中引入了高通作为战略投资方,也给我们带来了很多推动。
具体到「云端芯」,我们的服务是有「云端芯」三种,1)我们的技术有芯片级技术,比如说冷唤醒和打断等;2)到一个终端软件的交互层面,比如开车时万一网络不好,我们还有纯离线的方案;3)还有一些复杂的请求是走云端。所以,我们给客户提供的解决方案都是芯端云,并不是只卖一个芯片或者云端 SDK 之类,我们是把这个产品体系打通的。
机器之心:在确定了「云端芯」的产品战略后,首先选择了哪几个重点应用方向?
黄伟:确定了云端芯战略后,就基本确定了几个应用方向,云知声要做一个IoT领域的人工智能服务商,我们结合市场进度确定了几个细分方向,智能家居和车载、医疗、教育。2015 年我们开始重点对这些方向进行研发和资源投入。
1)智能家居和车载
IoT 的交互看起来很简单,但实际上面临着很多难以解决的问题,这是在手机端做语音识别所接触不到的,因为手机经过多年进化语音设备已经比较成熟,都是麦克风阵列,降噪也做的比较好,而且都是近场通话。对于智能家居来说,1)家庭中的冰箱空调等设备离用户比较远,存在声波衰减的问题。2)客厅卧室是封闭环境,会因为声波多次反射产生混响。如何在这种复杂的情况下,依然能够有很好的信号捕捉能力和环境噪音抑制能力。此外,如果考虑要在产业中落地,那就一定要考虑功耗和成本等,在资源消耗和你想达到的表现之间永远是不匹配的。
要解决其中的每一个点都面临着非常大的挑战,比如亚马逊 Echo 上多麦克传感器的供应商,那家公司只做这个就是一家独角兽公司了。云知声付出了巨大努力,花了一年多时间去重点解决这些问题,在 2015 年回顾时已经做得很不错了。
去年上半年,我们和乐视合作了第三代智能交互电视,用户可以用只有一个按钮的语音遥控器来代替传统遥控器,我们把 AI 芯片放在了电视机里,上面还包含了麦克风阵列,一般客厅的正常范围有 3-5 米,你可以把它想象成一个远讲的 Siri ,这是国内第一家推出来的。现在,除了乐视,我们的 AI 芯片和格力、美的、华帝、海尔、海信等都进行了合作,海信发布的智能空调三大标准中的智能语音交互部分用的也是我们的方案。今年家博会上,格力、美的等六家较大家电厂商有五家带着使用我们 AI 芯片的样机来参展。
另外,车载也是一个很重要的方向,它是家庭环境的延展,如果说在家居里面我们考虑更多跟硬件相关的东西,包括稳定性和功耗等,那么在车载场景下我们考虑更多的是交互性,因为开车的场景很特殊,双手被占用,如何在这种情况下把交互做到流畅就非常重要了。我们在 2014 年底确定做车载后,在 2015 年初我们开始大力投入研发,6 月份正式小批量出货,截止到去年 12 月份,在整个中国的车载后装市场,比如像行车记录仪、导航仪、后视镜和 HOD 等,我们的设备超过了100万台,在车载后装市场上拥有 60% 以上的市场份额。
2)医疗
首先,医疗是个很大的市场;其次,中国很多疑难杂症没有攻克有一部分原因是我们的病例本身没有电子化。虽然现在医院有 HIS 系统,内科有电子病历模板,但外科等多个科室是没有病例电子模板的,依然需要医生去打字。那更不用说一些需要操作设备的情况,比如说我在做手术,那我的术中诊断谁来记录?此外,中国医院还承担着科研任务,这需要数据,但现在很多病例都没有数据化。我们现在就在和国内顶尖医院合作,完成对医疗数据的感知问题。我们做的系统是医生和病患对话的实时转写,从医患之间的病症交流到医生最后的处方病历,医生可以全部口述,我们系统的完成对整个医疗行为的记录和存储。
我们这方面投入了很多研发资源来做,医疗有它的技术难点,语音识别是分领域的,你的引擎之前在日常对话、交通和音视频搜索里面做得非常好,但你放到医学领域就一团糟。因为医学里有太多专有名词,很多名词非常拗口。我们在引擎上做了很多方面的优化,到今天为止,我们的准确率达到 95% ,因为你达不到这个指标,转录之后还要医生花很多时间去纠正的话,医生就会抵触。此外还有其他方面,比如专门定了医疗麦克风,满足医院场景的专业需求,在产品设计的细节方面也需要考虑,比如麦克风位置怎么放?如何不干扰它?是移动式的还是放在桌子上?
从未来价值来看,这套系统有助于以后做医疗大数据挖掘等其他很多工作。同时它在当前也拥有很大的经济价值。去年第四季度,这套系统在协和医院四个重点科室上线试用了一个季度,最后协和医院的评估报告显示平均每天每个医生节约两个小时。目前每个病人的平均就诊时间是几分钟,那两个小时就意味着协和的医生每天能多看几个病人。这套系统今年会在协和医院全院推广。
3)教育
我们推出了语音评测服务云,针对国内常见的哑巴英语现象,我们开发了一套口语评测引擎,它不仅会对你的整体打分,还能指出某句话中的哪个单词发音不准,并告诉你准确发音。这套系统可以作为学校和英语教育培训中的一个很重要的辅助工具。我们的教育云上线半年,每天的调用量超过六千万次,按照每个学生每天 10-20 次的使用频率,那几本上每天的活跃用户是几百万以上。目前,在教育领域,拓维、全通、沪江、好未来、一起作业等都是我们客户。
总之,我们确定了「AI 服务」和「AI 芯」,将人工智能与硬件和芯片相结合,目前我们的云服务覆盖全国 470 个城市和 1.8 亿用户,超过九千万终端,每天我们的平台调用量是以亿为单位,那这个是真正的大数据。其实回过头来看的话,这就是为什么说当年我们做平台的一个很重要原因。数据是未来,那今天我们通过技术和产品结合,让我们获得收益支持公司走得更远更快,这个基本上就是云知声的发展轨迹和路径。
三、对语音识别和人工智能的看法
真正的人工智能需要进化,通过代理(Agent)的方式从环境中获取数据,然后再用这些数据来帮助系统来提高自身。
机器之心:如你上面所说,语音识别和应用场景密切相关。那你觉得,除了车载和智能家居这类非常明确的语音交互需求,还是说它和其他交互方式是相互补充?
黄伟:是相互补充的。在手机端,摄像头是以拍照为主,很少用它去做交互;麦克风主要是以打电话和发语音信息为主。但当我们逐步进入 IoT 时代,一切设备都是联网和需要提供智能服务的,但有些设备需要在没有屏幕的情况下进行交互,摄像头成本比较高,而且还存在一个最大的担忧是,你不知道它(摄像头)是不是在看,也会涉及隐私问题。所以,用摄像头进行交互的设备可能不会太多,除非它有明确需求。但基于麦克风的语音交互是一种主动形式。所以在 IoT 设备里面麦克风可能会是一种主要的交互方式,但它可能不是唯一的,也许它会跟图像、手势、体感及其他东西组合在一起。而且人工智能一定是一个综合智能,就是像我们人类自身的大脑和智能。
机器之心:如果具体到手机端这个场景,目前语音识别在手机端的应用主要是语音助手,但我们发现它们的作用非常有限,如果接下来在手机端出来一个消费级的非常好用的产品,那它有可能是一个怎样的产品?或者说手机端根本就不会出现这样的产品?
黄伟:比如前面提到的 Siri ,它一直不温不火的原因有两点,一个是目前的技术其实还没达到那种很完善的状态。第二点是它没有跟服务打通。最近又看到另外一种现象,大家很关注 Echo 。第一是它摆脱手机了,它是家居里的一个音箱或者其他联网设备,而且这个设备是可以远距离交互的,它和亚马逊电商是打通的,这就是把语音交互和服务直接打通了。那这样在家里你可以进行信息查询,也可以下单买东西,这就跟以前完全不一样了,所以我相信以 Echo 为代表的这种模式是未来一种非常重要的方式,它有可能会获得成功。
我觉得即便是 IoT 到来,手机也不会消失。至少 3-5 年内,我们每个人还会用手机,那么语音助手就会有存在的必要性,因为我毕竟也要通过手机去做交互,所以这个方向是要一直往前发展。苹果给了我们很好的启示,并且他们一直没有放弃 Siri 。首先,在软件技术方面一直在升级,同时把很多关于 Siri 的技术往芯片里做,比如 iPhone 6s 就把语音唤醒和身份识别做到了芯片里,无需接上电源就可以通过「Hey Siri」来唤醒手机。第二点是它往后会把服务打通,技术不仅让我跟设备去交互,而且还需要让我们得到想要的服务,比如说能够通过 Siri 呼叫 Uber 、订票、订餐。其实 Siri 这种交互模式与之前的搜索引擎那种方式完全不同,它要打通的链条更多,可能会需要一些时间。
机器之心:你认为接下来人工智能应该如何发展?
黄伟:第一,我们一直强调感知,感知是基础,就比如人类的进化,我们出生时携带的遗传基因可以理解成人类几百万年进化史留下的数据。如果说你没有感知,没有大量数据来做一个基石的话,你不可能有一个非常好的初始系统。第二,人工智能系统是需要进化的。比如你买个设备回来,第一天它只能做这个,一年之后它还是只能做这个,十年之后依然如此。如果这是个儿童陪伴机器人,那第一年小孩跟它玩,第二年就不跟它玩了,因为我早就会了,这就说明它没有进化。
所以真正的人工智能系统应该是个进化系统。那进化怎么来的?进化就是通过代理(Agent)的方式从环境中获取数据,然后再用这些数据来帮助系统提高自身。只有这样的话,人工智能才是真正的人工智能。当然这就会带来另外一个问题,包括像霍金等人提出的人工智能威胁论,但我觉得这就是发展路径的问题了,是往好的地方进化还是往坏的地方进化?但如果说要是不进化,那就不是人工智能。首先这是「是与非」的问题,其次才是你往左走还是往右走的问题。其实在后面我们可以进行方向的控制,如果数据是一种教育资源的话,我们可以给它提供一些好的教育资源去引导它往好的方向进化。