爱奇艺HomeAI在语音交互领域的探索

前言

爱奇艺HomeAI服务于iQIYI内的多个平台和产品,提供以视频点播为中心的智能语音交互解决方案,同时也在不断通过创新,利用最新的语音相关技术打造全新的玩法。

对于目前大部分的语音交互系统,语音识别,语义理解和操作执行都是独立的模块,因此语音识别的错误后续的模块无法感知也无法反馈,将会在传递的过程中不断放大,最终导致错误的结果。随着智能语音助手所支持的领域越来越多,语言模型的缺陷所导致的语音识别结果误差正在逐步成为整个系统的瓶颈。本文将介绍HomeAI目前的初步成果和未来的思考。

语言模型的局限性

统计语言模型是通过对大量文本语料学习得到的描述词序列的出现概率的模型,被广泛应用在语音识别自然语言处理等领域,它相比传统的基于规则的语言模型具有更好的鲁棒性。

正因如此,语音识别和意图识别的语言模型无法快速的扩展,因此这两个模块对社会热点或者新播热剧很难有效的响应。

相对的,执行层面在进行视频搜索时的基于片库的语言模型在日新月异的变化。两种模型的差异导致语音识别过程中无法更倾向于解析出和片库内容相符的实体。


一个典型的错误

先让我们通过一个简单的例子来看一下,语音识别的错误是如何影响最终的结果的。


由于用户输入的“声临其境”没有在语音识别语言模型中,但是却存在与其发音非常接近的成语存在(这种命名方式当前非常普遍),导致语音识别输出了高置信度的错误结果,得到了不符合用户预期的结果(路径1)。

通常,我们会尝试通过执行端的纠错,在这个例子中为搜索时的模糊匹配(路径2)来修复此类问题。但是由于模糊匹配的结果置信度较低,因此当整个系统支持多个领域的技能时,将有可能被其他领域的结果PK掉(路径3)。

而由于之前提到的语言模型的缺陷,即使让ASR提供排名前N的识别结果,也无法包含正确的结果。在HomeAI中,我们尝试在意图识别层面,利用自己的语言模型对ASR的结果进行纠错(路径4),从而更好的解决类似的问题。

分离语言模型

既然ASR中的语言模型一定程度上导致了对于实体的识别错误,那首先我们要做的就是要淡化语义在ASR中所起的作用,将发音信息和语义信息分层解耦。

在传统的语音识别模型最后,我们把解码部分分成了两层,先解码到拼音(即发音信息),再解码到文字,这样输出中可以同时保留两层结果供后续模块使用。对于外部的语言识别服务的结果,我们也会基于其输出的拼音信息进行实体的检索,以减少ASR的错误结果对后续意图识别的影响。

意图识别进行实体增强

HomeAI采用了主流的领域->意图->填槽的方式进行自然语言处理。由于之前在语音识别中弱化了发音到文字的转换,因此需要在意图识别时进行增强。HomeAI在意图识别过程中分两步对实体信息进行纠错:

1.结合ASR的语义层和声学层输出,以及意图识别的语言模型,尝试对原输出中的实体进行纠错

2.在词向量中拼接拼音特征,增强模型对相似发音的泛化能力

总结

由于语言模型在语音交互的各个模块中无法同步,且模块之间无反向反馈。导致语音识别的错误在模块自身不感知的情况下被后续处理模块初步放大,并最终产生了不符合用户预期的结果。为此,HomeAI通过将语音识别过程中,语义理解部分,即拼音到文本的转化弱化,交由后续的意图识别模块进一步增强,结合片库中的实体信息,在视频点播场景对用户体验有明显的提升。

未来发展

从语音交互向智能助手的发展还有很长的道要走,HomeAI也会继续在这个领域不断投入。除了扩展视频点播以外更多的使用场景,可针对用户和环境自适应的交互模型也会是我们的研究重点。许多言语只有与特定人和特定上下文环境结合才能正确的理解,这些是单一的云端模型所无法解决的。我们希望能够以一个通用的模型为基础,结合用户端的自适应能力,使系统在交互过程中能够通过反馈,逐渐适应用户的口音,习惯,常用词汇,相关实体等等,打造私人定制的语音助手。

爱奇艺技术产品团队
爱奇艺技术产品团队

爱奇艺做一家以科技创新为驱动的伟大娱乐公司,用大数据指导内容的制作、生产、运营、消费。并通过强大的云计算能力、带宽储备以及全球性的视频分发网络,为用户提供更好的视频服务。

理论语音交互爱奇艺HomeAI
1
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

语言识别技术

在自然语言处理中,语言识别或语言猜测是确定给定内容所使用的自然语言的问题。针对该问题的计算方法被视为文本分类的特例,并用各种统计方法解决。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~