语音识别

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

简介

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源

[1]. 维基百科

[2]. 百度百科

[3]. What is Automatic Speech Recognition?

来源URL

[1]. https://en.wikipedia.org/wiki/Speech_recognition

[2]. https://baike.baidu.com/item/自动语音识别/5807980?fr=aladdin

[3]. http://support.docsoft.com/help/whitepaper-asr.pdf

Siri通过自动语音识别,将用户的语音转换为系统可读的文字后进行指令的反馈。

发展历史

1952年,三位贝尔实验室的研究人员研究出了世界上第一个能识别10个英文数字发音的系统。该系统被普遍认为是自动语音识别系统的开端。60年代以后,语音识别技术得到了长足发展。日本的东京大学和NEC实验室,美国的卡耐基梅隆大学,以及前苏联的科学家们,相继提出了几种语音识别的基本概念,为今后自动语音识别的发展打下了坚实的基础。70年代后,孤立词识别从理论上得以完善,并已经可以实用。另一方面,IBM和贝尔实验室等一些研究机构,开始把研究中心从孤立词识别系统转到了尝试研究大词汇连续语音识别。80年代最辉煌的成就在于技术的中心从模版匹配转移到了统计模型方法,尤其是隐马尔可夫模型(Hidden Markov Model,HMM)的理论和方法获得了长足的发展。80年代后期,神经网络在50年代后又一次被重新应用到语音识别上来。90年代以后,HMM取得了突破性进展,语音识别技术突飞猛进。21世纪以来,语音识别应用如雨后春笋,Siri等语音助手开始普及。近年,由于计算机硬件和神经网络(Deep Neural Network, DNN)的迅猛发展,基于DNN的自动语音识别取得了惊人成就。

主要事件

年份事件相关论文
1982马尔可夫过程在语音识别中大获成功Levinson, S. E., Rabiner, L. R., & Sondhi, M. M. (1983). An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition. The Bell System Technical Journal, 62(4), 1035-1074.
1983最大似然在连续语音识别中的应用被提出Bahl, L. R., Jelinek, F., & Mercer, R. L. (1983). A maximum likelihood approach to continuous speech recognition. IEEE transactions on pattern analysis and machine intelligence, (2), 179-190.
1989李开复博士用隐马尔可夫模型(HMM)实现了非特定说话人的语音识别Lee, K. F., & Hon, H. W. (1989). Speaker-independent phone recognition using hidden Markov models. IEEE Transactions on Acoustics, Speech, and Signal Processing, 37(11), 1641-1648.
1991隐马尔可夫模型(HMM)在语音识别中已取得重大进展Huang, X. D., Ariki, Y., & Jack, M. A. (1990). Hidden Markov models for speech recognition (Vol. 2004). Edinburgh: Edinburgh university press.
1994神经网络和隐马尔可夫模型的混合方法开始在语音识别中得到应用Bourlard, H. A., & Morgan, N. (2012). Connectionist speech recognition: a hybrid approach (Vol. 247). Springer Science & Business Media.
2005LSTM在语音识别中的应用Graves, A., & Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks, 18(5), 602-610.
2011语音识别工具包kaldi的出世,加速了语音识别研究的进展Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. EPFL-CONF-192584). IEEE Signal Processing Society.
2012深度学习教父Hinton的经典论文。自此,DNN在语音识别中广泛应用Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97.
2013微软在深度学习语音识别中的一些进展和成果Deng, L., Li, J., Huang, J. T., Yao, K., Yu, D., Seide, F., ... & Gong, Y. (2013, May). Recent advances in deep learning for speech research at Microsoft. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8604-8608). IEEE.
2014卷积神经网络在语音识别中的应用Abdel-Hamid, O., Mohamed, A. R., Jiang, H., Deng, L., Penn, G., & Yu, D. (2014). Convolutional neural networks for speech recognition. IEEE/ACM Transactions on audio, speech, and language processing, 22(10), 1533-1545.
2015Attention模型在语音识别中的应用Chorowski, J. K., Bahdanau, D., Serdyuk, D., Cho, K., & Bengio, Y. (2015). Attention-based models for speech recognition. In Advances in Neural Information Processing Systems (pp. 577-585).

发展分析

瓶颈

目前语音识别在非嘈杂环境的单说话人情景中已经可以取得超过人类语音识别的结果。可是在嘈杂环境中,尤其是鸡尾酒会问题(cocktail party)中,语音识别仍然有一段路需要走。噪声与人声的分离,不同人声的分离,不同距离的噪声人声分离等等,是目前语音识别的一大发展瓶颈。

未来发展方向

正如瓶颈中所描述的一样,嘈杂环境中的非特定人说话以及多数人说话的语音识别将是未来的一大发展方向。如何有效降低信噪比,分离对语音识别系统有用的人声信号和各种环境中的非特定噪声信号,仍然是研究的重点。

Contributor: Yuanchao Li

相关人物
杰弗里·辛顿
杰弗里·辛顿
杰弗里·埃弗里斯特·辛顿 FRS(英语:Geoffrey Everest Hinton)(1947年12月6日-)是一位英国出生的加拿大计算机学家和心理学家,以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者。
Abdel-rahman Mohamed
Abdel-rahman Mohamed
邓力
邓力
邓力,本科毕业于中国科学技术大学,随后在威斯康星大学麦迪逊分校获的硕士和博士学位。曾任微软人工智能首席科学家。邓力2009 年就同 Geoffrey Hinton 教授合作,首次提出并将深度神经网络应用到大规模语言识别中,显著提高了机器对语音的识别率,极大推动了人机交互领域的发展与进步。2017年5月,他加入了市值300亿美元的对冲基金Citadel并担任首席人工智能官。
李海洲
李海洲
李海洲教授现任新加坡国立大学电气与计算机工程系终身教授,同时也是澳大利亚新南威尔士大学教授、国际语音通信学会 (ISCA) 首位华人主席、亚洲自然语言处理协会 (AFNLP) 主席、亚太信号与信息处理学会(APSIPA)主席、美国电气与电子工程师学会(IEEE)音频、语音、和语言处理汇刊总编。李海洲教授在国际期刊上已发表了 500 余篇技术论文和学术论文,并多次获最佳论文奖。研究方向包括说话人识别,人声分离,语音识别、语音分析处理,信息检索、机器学习和数字信号处理等多个领域。研究成果自 2008 年起在美国国家标准与科技局年度评测中名列前茅。2018年8月,李海洲教授加入厦门快商通科技股份有限公司,担任快商通首席科学家,全面指导快商通新加坡人工智能研究院。
俞栋
俞栋
俞栋,语音识别与深度学习领域的专家,现任腾讯AI Lab(人工智能实验室)副主任。俞栋曾在语音识别领域出版了两本专著并发表过大量论文,也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。
李锦辉
李锦辉
简介
相关人物