语音合成

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

简介

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

来源

[1]. 张斌,全昌勤,任福继. 语音合成方法和发展综述[J]. 小型微型计算机系统,2016,(01):186-192.

[2]. 维基百科

来源URL

[1]. http://www.cqvip.com/qk/95659x/201601/667649985.html

[2]. https://en.wikipedia.org/wiki/Speech_synthesis

向Google Home询问当天天气,Google Home随即用一个较甜美的声音告诉你结果。该生成语音的过程就用到了将文本转换成可听语音的语音合成技术。

发展历史

1779年,德国科学家Christian Gottlieb Kratzenstein开发出了一个可以发出五个长元音[aː], [eː], [iː], [oː], [uː]的人类声道模型。1791年,该模型得到改进,加入了舌头和嘴唇模型,可以同时发出辅音。1939年,贝尔实验室制作出了第一个电子语音合成器The Voder。1960年,瑞典语言学家G. Fant提出用线性预测编码(LPC)作为语音合成分析技术,推动了语音合成的发展。MIT和贝尔实验室为语音合成技术做出了极大的贡献,MITalk,DECTalk等语音合成系统在70年代末80年代被相继提出。与此同时,日本的ATR也开发出了CHATR system。90年代,基音同步叠加技术(PSOLA)被提出,可以合成比LPC更自然的语音。进入21世纪后,基于统计的方法被广泛应用,日本名古屋工业大学的Keiichi Tokuda教授开发出了基于HMM的语音合成系统HTS,同时美国CMU也开发出了基于统计方法的语音合成系统CLUSTERGEN。近十几年来,基于神经网络的语音合成系统被广泛研究,并取得了很好的效果。

主要事件

年份事件相关论文
1939世界上第一个电子语音合成器的诞生DUDI-EY, H. O. M. E. R. (1939). The vocoder.
1979MIT开发出了著名的语音合成系统MITalkAllen, J., Hunnicutt, S., Carlson, R., & Granstrom, B. (1979). MITalk‐79: The 1979 MIT text‐to‐speech system. The Journal of the Acoustical Society of America, 65(S1), S130-S130.
1992PSOLA的提出使得合成语音更加自然Valbret, H., Moulines, E., & Tubach, J. P. (1992). Voice transformation using PSOLA technique. Speech communication, 11(2-3), 175-187.
2006Junichi Yamagishi对基于HMM的语音合成进行了完美的总结Yamagishi, J. (2006). An introduction to hmm-based speech synthesis. Technical Report.
2009语音合成经典教材问世Taylor, P. (2009). Text-to-speech synthesis. Cambridge university press.
2013DNN在语音合成中的应用开始推广Ze, H., Senior, A., & Schuster, M. (2013, May). Statistical parametric speech synthesis using deep neural networks. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 7962-7966). IEEE.
2014基于神经网络的语音合成技术愈发成熟Fan, Y., Qian, Y., Xie, F. L., & Soong, F. K. (2014). TTS synthesis with bidirectional LSTM based recurrent neural networks. In Fifteenth Annual Conference of the International Speech Communication Association.
2014Qian, Y., Fan, Y., Hu, W., & Soong, F. K. (2014, May). On the training aspects of deep neural network (DNN) for parametric TTS synthesis. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on (pp. 3829-3833). IEEE.
2016Wang, W., Xu, S., & Xu, B. (2016). First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention. In INTERSPEECH (pp. 2243-2247).
2016谷歌WaveNet的横空出世Oord, A. V. D., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., ... & Kavukcuoglu, K. (2016). Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499.
2017Deep Voice的问世Arik, S. O., Chrzanowski, M., Coates, A., Diamos, G., Gibiansky, A., Kang, Y., ... & Shoeybi, M. (2017). Deep Voice: Real-time neural text-to-speech. arXiv preprint arXiv:1702.07825.

发展分析

瓶颈

目前在单字和词组一级上,合成语音的自然度和可懂度基本可以满足,但是到句子和篇章一级时,自然度还是一个较大的问题。其次,人类语音饱含情感,语气语速,并且不同年龄有不同的说话方式,这是现在语音合成所无法较好做到的。另外,语音合成还无法做到多语种合成,现在绝大部分系统都是基于单语种的合成。

未来发展方向

正如瓶颈中所描述的一样,语音合成系统的最终发展方向是能够像人类一样做到长篇,情感语气,多语种的自然语音合成。其效果应与人类说话无异。

Contributor: Yuanchao Li

相关人物
Junichi Yamagishi
Junichi Yamagishi
陶建华
陶建华
中国科学院自动化研究所 所长助理 模式识别国家重点实验室 副主任 中欧信息自动化应用数学联合实验室 中方主任 国家杰出青年科学基金获得者 国家万人计划领军人才 研究领域 语音与语言处理、多模态人机交互、情感计算、大数据分析、模式识别 教育背景 学历 清华大学计算机系 2001年获博士学位 南京大学电子系 1996年获硕士学位 南京大学信息物理系 1993年获本科学位
简介
相关人物