林林作者

Google视角下的语音识别发展简史

目前语音识别领域已经取得了重大进展,计算机已经可以将语音转换为文字,准确率已经超过95%。语音视频领域发展的如火如荼,越来越引起大家的关注。最近,不少声学在线的读者朋友们提出,希望介绍一下语音设别的发展历程,所以今天笔者分享一段视频,让我们看一看Google眼中的语音识别发展简史,从中来窥见一斑。



语音识别简史,视频版权属于Google


以上,我们可以看出从1952年的贝尔实验室研制的世界上第一个能识别10个英文数字发音的语音识别系统,到今天百家争鸣的语音识别系统;从隐马尔科夫模型到神经元网络,语音识别的发展可谓是日新月异。但是要想让计算机做到真正的与人自由交流,还有许多问题亟待解决,其中,两个难题为首要。


首先是语义理解,计算机虽然能将语音转换为文字,但计算机并不能准确理解这段文字的真正含义。因为文字的内容更加丰富,即使是同一句话,不同的上下文,不同的语气,不同的场景,不同的音调都会产生不同的含义。目前的语义理解主要还是基于大数据,例如微软的小冰,苹果的Siri,都是因为有着庞大数据支撑。当他们遇到问题时,通过搜索的方式来获得最佳答案。换句话说,他们只能回答数据库里已经存在的问题。因此他们无法根据上下文给出最佳答案,例如:你对它说,小明的家在北京,接下来你再问她,小明的家在哪?这样简单的问题,它们也是无法回答的。


其次就是远场识别问题,目前计算机将语音转换为文字,仅能支持近距离讲话的情况。一旦人与麦克风相距较远,有混响或噪声存在的情况下,语音识别率急剧降低。特别是,有混响的情况,更对语音识别提出挑战,在这一点上,计算机与人有着极大的不同。在有适当混响的情况下,人反而感觉声音饱满,听得更加清楚。目前,通用做法是利用麦克风阵列来解决这一问题,利用多个麦克风可以形成空间滤波器,这样就可以将人与噪声分离,同时还可以去掉房间的反射声,减弱混响的影响。但是,笔者个人认为这并不能从根本上解决问题。从理论上说,两个麦克风很难将2个及2个以上的声源分开,人虽只有两个耳朵,但以我们的个人经验,当我们周围有多个声源时,我们并不是把多个声源分开再进行语音识别的,而是将所有的声音一起送入大脑进行处理的。因此想要从根本上解决这个问题,需要让计算机有自学习能力,能够让计算机根据小样本数据调整深度神经元网络的节点个数及权值等,经过不断的学习与调整,使计算机能够真正像人一样理解语言。


声学在线
声学在线

产业Google语音识别远场识别语义理解
相关数据
准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推荐文章
暂无评论
暂无评论~