苹果 Siri 的推出让大众开始对语音交互有了初步概念,而这几年深度学习的发展更是使语音识别准确率获得了质的提升。
1976 年,Reddy 在一篇关于当时语音识别最高水平的综述文章中大胆预测:未来 10 年内有望实现成本为 20,000 美元的联网语音系统。虽然超出了预计时间,但研究人员最终不仅达到了目标,而且建立系统的成本低得多并继续大幅下降。
今天,在很多智能手机里,业内提供了明显超出 Reddy 预测的免费语音识别服务。 从某种程度上来看,目前的语音识别技术已然成熟,我们已经习惯在家居、车载等某些场景下去使用语音,众多拥有语音识别技术的公司也开始把语音和人机自然对话当做下一代交互方式去豪赌未来。
但就像语音识别在过去几十年的发展路径一样,技术和基础研究的进步是需要循序渐进的。 一方面,我们需要通过更多创新的方法来进行语音识别的基础研究,以尽可能提高准确率,如同IBM 曾将英语会话词错误率降低至 6.9% 。另一方面,前沿技术研究到实际应用需要一个很长的过程,我们也不可能等到语音识别的准确率达到 100% 之后再将其应用,而是在当前成熟技术的最高水平下,通过产品设计去让技术落地,解决用户需求问题。通过应用场景的设计和产品的创新去弥补技术的不足,在依靠技术的同时,应该更多的以产品为导向。
纵观整个互联网行业,可以说搜狗作为一家技术型公司,在人工智能领域一直依靠实践来获取更多的经验,从而提升产品使用体验。
人工智能=自然交互+知识计算
关于人工智能,搜狗将其总结为两点,即「自然交互和知识计算」。在交互方面,搜狗语音交互技术中心负责人王砚峰认为语音和图像已经具有一定的成熟度,除了向更加成熟的方向发展外,未来也会将更多的传感技术以及传感器加入到交互中,进一步推动交互技术的发展。同时,语义理解和对话也是交互方面的核心能力,因为不能只有「耳朵眼睛」没有「大脑」;在信息获取方面,王砚峰认为知识计算和逻辑推理会让当前的搜索形态发生变化,即从单纯文字的检索,到理解搜索需求并且从网页中抽取知识反馈用户。从而提升搜索体验,同时帮助用户更自然的获取信息。
「语音识别技术经过这几年的快速发展,准确率有了非常大的提升。但即使如此,当前语音识别准确率仍然做不到 100% ,而语音识别一旦出错,用户修改成本就会异常的高,从而反过来提高了用户使用语音的门槛,」王砚峰表示,「于是我们就去想,能不能结合用户使用语音的场景,通过产品创新进一步提升语音识别的效果,弥补技术发展的不足。」所以,搜狗推出了语音识别纠错功能,当语音识别发生错误时,可以让用户通过语音交互去修改错误,这样就大大提升了语音交互的体验和使用效率。
支撑这个功能有两方面技术,一是需要语音识别本身的准确率,二是需要强大的语义理解能力,「就是能够听懂用户想改什么以及怎么改。为了降低用户使用这个功能的学习成本,需要做的就是能够支持用户各种修改的表达,用户可以说『把第一个字删掉』,也可以说『将第一个字删掉』,『删除第一个字』等各种其他表达方法。我们追求的就是让用户在修改的时候,平时对人是怎么描述修改的,对机器就怎么描述。这才是用户最自然的交互方式。」王砚峰解释到。
用「最自然的交互方式」进行纠错还体现在用户可以去描述某个文字,比如机器能够听懂「立早章」和「女字旁的她」这样复杂的语言命令,而实现这个功能则是和搜狗在输入法的积累密不可分。「这方面搜狗输入法还是带给了我们先天的优势,」王砚峰说,「我们输入法具有基础的拆字库,知道一个字是如何拆开的,同时我们也有大量的用户表达数据,通过数据挖掘,是可以知道用户日常表达中如何描述一个字的。这两个知识串起来,就能够让我们知道,用户会用『立早章』来描述『章』这个字,于是就把这个知识加入到我们的知识库中。」
什么才是未来的内容获取方式?
拥有技术基础,再加上对应用场景理解的产品理念,那语音纠错这个功能显然就变成了解决刚需的通用工具,因为整个行业在语音识别准确率未能达到100%的情况下,只要处于语音输入的场景下,势必都需要这样的技术,不仅能够解放用户的双手,同时在一定程度上提高了用户的使用效率。「车内导航的时候,利用它去修改语音识别错误的导航目的地,真正的解放用户双手;在客厅中,比如电视遥控器和智能音箱这种没有屏幕的设备,甚至只能通过语音修改来进行错误的修正了。所以但凡语音有价值的场景,语音修改就同等的具有价值,」王砚峰说。
王砚峰认为,语音纠错这个功能只是人工智能技术和产品理念结合的一个案例,为了帮助用户更方便的进行信息的表达和获取,属于这条路径上的技术领域,都是搜狗需要重点发力的方向。 因此,除了语音和语义理解,搜狗在图像等方面也在进行布局。一方面致力于对未来主流技术的布局和追求,另一方面也使得现有核心产品向未来更智能的方向演进。