林林作者

声纹识别,语音交互领域的下一个风口?

今年十月份,微软建设了世界上最安静的实验室以加大消费类声学产品的研发力度;几乎同时,苹果也收购了VocalIQ以增强Siri的语音助手功能,特别是汽车领域的应用。随后,谷歌以7500万美元入股了国内的语音助手出门问问。而且,不到三个月,微软再次出手,将语音助手微软小娜推广到IOS和Android平台。自科大讯飞上市以来,语音识别这项技术持续火热,但是语音识别却并没有改变我们的生活,而且我们更倾向于把这项技术作为娱乐消费。随着智能家居和汽车互联的兴起,语音交互的焦点很快转移到语音助手领域,语音助手将着重解决语音识别之后的语言理解问题。这似乎距离我们自然人机交互的目标越来越近,但好像还缺点什么?对了,就是声纹识别,也就是人机自然交互的前提是首先要知道交互的对象是谁。明确了交互的对象,这才更有利于机器理解人们的语言并且做出智能应对。那么,声纹识别会是继语音识别、语音助手之后,语音交互的下一个风口吗?


首先看看什么是声纹识别,声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。该项技术最早是在40年代末由贝尔实验室开发,主要用于军事情报领域。随着该项技术的逐步发展,60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术,从1967年到现在,美国至少5000多个案件包括谋杀,强奸,敲诈勒索,走私毒品,赌博,政治腐败等都通过声纹识别技术提供了有效的线索和有力的证据。


声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。这种独特的特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉,鼻腔和口腔等,这些器官的形状,尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话,但是声音的频率分布是不同的,听起来有的低沉有的洪亮。每个人的发声腔都是不同的,就像指纹一样,每个人的声音也就有独特的特征。第二个决定声音特征的因素是发声器官被操纵的方式,发声器官包括唇,齿,舌,软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。


因此声纹就像指纹一样,很少会有两个人具有相同的声纹特征。美国几个研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。并且美国联邦调查局对2000例与声纹相关的案件进行统计,利用声纹作为证据只有0.31%的错误率。目前利用声纹来区分不同人这项技术已经被广泛认可,并且在各个领域中都有应用。


下面我们再看看声纹识别常用的方法,包括模板匹配法,最近邻方法,神经元网络方法,VQ聚类法等。虽然处理手段不同,但基本原理是类似的。一般都是将一维的声音信号通过短时傅里叶变换得到二维的语谱图。语谱图是声音信号的一种图像化的表示方式,它的横轴代表时间,纵轴代表频率,语音在各个频率点的幅值大小用颜色来区分。说话人的声音的基频及谐频在语谱图上表现为一条一条的亮线,再通过不同的处理手段就可以得到不同语谱图之间的相似度,最终达到声纹识别的目的。

最后我们也要数数声纹识别的问题,上面说到了声纹识别的唯一性其实很好,但实际上我们现有的设备和技术仍然很难做出准确分辨,特别是人的声音还具有易变性,易受身体状况、年龄、情绪等的影响。另外,若在环境噪音较大和混合说话人的环境下,声纹特征也是很难提取和建模的。虽然深度学习带给语音交互极大的提升,谷歌甚至开源了人工智能算法,但是声纹识别的研究进展仍然不大,这仍然受制于语料的采集和特征的建立。尽管市面上如科大讯飞也发布了声纹识别应用,但是还鲜有成熟的应用场景,智能家居曾被认为是最有可能的突破,但是随着声纹锁的饱受诟病,这个概念似乎也冷却了不少。但是人们追求自然人机对话的目标不会变,声纹识别作为其中的关键技术,特别是随着机器人技术的发展,必然会迎来一股新的市场热潮和应用。

声学在线
声学在线

产业声纹识别
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

傅里叶变换技术

傅里叶变换(法语:Transformation de Fourier、英语:Fourier transform)是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换,在物理学和工程学中有许多应用。因其基本思想首先由法国学者约瑟夫·傅里叶系统地提出,所以以其名字来命名以示纪念。实际上傅里叶变换就像化学分析,确定物质的基本成分;信号来自自然界,也可对其进行分析,确定其基本成分。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~