目前语音识别领域已经取得了重大进展,计算机已经可以将语音转换为文字,准确率已经超过95%。语音视频领域发展的如火如荼,越来越引起大家的关注。最近,不少声学在线的读者朋友们提出,希望介绍一下语音设别的发展历程,所以今天笔者分享一段视频,让我们看一看Google眼中的语音识别发展简史,从中来窥见一斑。
语音识别简史,视频版权属于Google
以上,我们可以看出从1952年的贝尔实验室研制的世界上第一个能识别10个英文数字发音的语音识别系统,到今天百家争鸣的语音识别系统;从隐马尔科夫模型到神经元网络,语音识别的发展可谓是日新月异。但是要想让计算机做到真正的与人自由交流,还有许多问题亟待解决,其中,两个难题为首要。
首先是语义理解,计算机虽然能将语音转换为文字,但计算机并不能准确理解这段文字的真正含义。因为文字的内容更加丰富,即使是同一句话,不同的上下文,不同的语气,不同的场景,不同的音调都会产生不同的含义。目前的语义理解主要还是基于大数据,例如微软的小冰,苹果的Siri,都是因为有着庞大数据支撑。当他们遇到问题时,通过搜索的方式来获得最佳答案。换句话说,他们只能回答数据库里已经存在的问题。因此他们无法根据上下文给出最佳答案,例如:你对它说,小明的家在北京,接下来你再问她,小明的家在哪?这样简单的问题,它们也是无法回答的。
其次就是远场识别问题,目前计算机将语音转换为文字,仅能支持近距离讲话的情况。一旦人与麦克风相距较远,有混响或噪声存在的情况下,语音识别率急剧降低。特别是,有混响的情况,更对语音识别提出挑战,在这一点上,计算机与人有着极大的不同。在有适当混响的情况下,人反而感觉声音饱满,听得更加清楚。目前,通用做法是利用麦克风阵列来解决这一问题,利用多个麦克风可以形成空间滤波器,这样就可以将人与噪声分离,同时还可以去掉房间的反射声,减弱混响的影响。但是,笔者个人认为这并不能从根本上解决问题。从理论上说,两个麦克风很难将2个及2个以上的声源分开,人虽只有两个耳朵,但以我们的个人经验,当我们周围有多个声源时,我们并不是把多个声源分开再进行语音识别的,而是将所有的声音一起送入大脑进行处理的。因此想要从根本上解决这个问题,需要让计算机有自学习能力,能够让计算机根据小样本数据调整深度神经元网络的节点个数及权值等,经过不断的学习与调整,使计算机能够真正像人一样理解语言。