新器件带给远场语音识别的新希望!

语音识别领域已经取得了许多重大进展,但是,距离机器人与人类真正的自由交流,却还有许多难题需要解决,其中的难题之一就是远场语音识别

目前,计算机将语音转换为文字,仅限近讲的情况,一旦人与麦克风相距较远,有混响或噪声存在的情况下,语音识别率急剧降低,特别是有混响的情况,更对语音识别提出挑战,这与人有着极大的不同。也就是说在有适当混响的情况下,人会感觉声音饱满,听得更加清楚,而对于计算机,机器人,却恰恰相反。还有,众所周知的鸡尾酒效应中,我们人类是具有一种听力选择能力的,形象的描述就是在一个鸡尾酒会上,人可以将注意力集中在某一个人的谈话上,而忽略周围人的谈话及背景噪声。尽管周边的噪声很大,我们仍然可以听到我们感兴趣的说话内容。这种能力我们每个人都有,但要让机器也具有这种能力,却是非常困难的。

现有解决方案

近半个世纪以来,科学家一直在致力于解决这个难题。目前,解决机器听觉系统的鸡尾酒会效应主要有两个研究方向。

第一种是听觉场景分析,主要是基于音频特征及语言模型对混在一起的语音进行分离。例如:可以利用语音信号谐波特性、短时平稳特性、隐马尔科夫语言模型,实现将混在一起的谈话声分离。但是,这种方法的缺点之一是对语音进行了一些不合理的假设,如不同人的说话声在频谱上是不重叠的。而且除此之外,基于语言模型的估计方法运算量又很大,难以实用。

第二种是基于麦克风阵列的方法,利用麦克风阵列设计空间滤波器,实现对特定方向声源的提取,并抑制其他方向上语音,从而达到对不同位置的声音进行分离的目的,缺点是需要多个麦克风且计算复杂。

未来解决方案

显然,上述的现有两个解决方案都不能达到令我们满意的程度。然而,最近美国杜克大学的学者给我们带来了新的希望。

通过将声学材料及压缩感知技术结合发明的一种新型器件,不仅使得单个麦克风就可以实现对三个混合声源的分离,而且,其正确率可以达到96.67%。新器件与传统的信号处理方法不同,它是通过设计精妙的声学材料实现对不同方向的声源进行编码,且不需要对声源有任何先验知识或假设。

该新器件是由一个塑料圆盘构成,外形十分类似一个披萨。圆盘的中心放置一个麦克风,麦克风周围由36个扇形的通道组成,每个通道都是一个声波导,由许多蜂窝状的结构组成。每个通道都能够把经过它的声波进行调制,因此,整体结构类似于一个参数可调的均衡器。

圆盘的工作原理,与你对着一个装着水的瓶子说话时的情景很类似。由于声波振动的影响,瓶子内部的空气会发生共振,从而声音某些频率的能量会被衰减,而衰减的频率值由瓶内水的多少决定。圆盘的每个通道都类似于一个装着水的瓶子,通过精妙的设计每个通道中的蜂窝状晶格的高低大小就可以实现对声音不同频率的能量进行衰减,从而达到对声波编码的目的。

不过,由于新器件的尺寸较大,目前还难以在实际中获得很好的应用。但试想一下,一旦该器件可以小型化,它将取代目前通用的麦克风阵列技术。利用单个麦克风,且不需要进行复杂的计算就可以实现在嘈杂的环境下提取感兴趣的语音,这是一件多么美妙的事情。

声学在线
声学在线

产业语音识别
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

鸡尾酒会效应技术

鸡尾酒会效应(cocktail party effect)是指人的一种听力选择能力,在这种情况下,注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。这种特殊的听力能力可能是由人类的语音生成系统,听觉系统,或高层次的感性和语言处理的特点所决定的。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~