语音合成

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

简介

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

来源

[1]. 张斌,全昌勤,任福继. 语音合成方法和发展综述[J]. 小型微型计算机系统,2016,(01):186-192.

[2]. 维基百科

来源URL

[1]. http://www.cqvip.com/qk/95659x/201601/667649985.html

[2]. https://en.wikipedia.org/wiki/Speech_synthesis

向Google Home询问当天天气,Google Home随即用一个较甜美的声音告诉你结果。该生成语音的过程就用到了将文本转换成可听语音的语音合成技术。

发展历史

1779年,德国科学家Christian Gottlieb Kratzenstein开发出了一个可以发出五个长元音[aː], [eː], [iː], [oː], [uː]的人类声道模型。1791年,该模型得到改进,加入了舌头和嘴唇模型,可以同时发出辅音。1939年,贝尔实验室制作出了第一个电子语音合成器The Voder。1960年,瑞典语言学家G. Fant提出用线性预测编码(LPC)作为语音合成分析技术,推动了语音合成的发展。MIT和贝尔实验室为语音合成技术做出了极大的贡献,MITalk,DECTalk等语音合成系统在70年代末80年代被相继提出。与此同时,日本的ATR也开发出了CHATR system。90年代,基音同步叠加技术(PSOLA)被提出,可以合成比LPC更自然的语音。进入21世纪后,基于统计的方法被广泛应用,日本名古屋工业大学的Keiichi Tokuda教授开发出了基于HMM的语音合成系统HTS,同时美国CMU也开发出了基于统计方法的语音合成系统CLUSTERGEN。近十几年来,基于神经网络的语音合成系统被广泛研究,并取得了很好的效果。

主要事件

年份事件相关论文
1939世界上第一个电子语音合成器的诞生DUDI-EY, H. O. M. E. R. (1939). The vocoder.
1979MIT开发出了著名的语音合成系统MITalkAllen, J., Hunnicutt, S., Carlson, R., & Granstrom, B. (1979). MITalk‐79: The 1979 MIT text‐to‐speech system. The Journal of the Acoustical Society of America, 65(S1), S130-S130.
1992PSOLA的提出使得合成语音更加自然Valbret, H., Moulines, E., & Tubach, J. P. (1992). Voice transformation using PSOLA technique. Speech communication, 11(2-3), 175-187.
2006Junichi Yamagishi对基于HMM的语音合成进行了完美的总结Yamagishi, J. (2006). An introduction to hmm-based speech synthesis. Technical Report.
2009语音合成经典教材问世Taylor, P. (2009). Text-to-speech synthesis. Cambridge university press.
2013DNN在语音合成中的应用开始推广Ze, H., Senior, A., & Schuster, M. (2013, May). Statistical parametric speech synthesis using deep neural networks. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 7962-7966). IEEE.
2014基于神经网络的语音合成技术愈发成熟Fan, Y., Qian, Y., Xie, F. L., & Soong, F. K. (2014). TTS synthesis with bidirectional LSTM based recurrent neural networks. In Fifteenth Annual Conference of the International Speech Communication Association.
2014Qian, Y., Fan, Y., Hu, W., & Soong, F. K. (2014, May). On the training aspects of deep neural network (DNN) for parametric TTS synthesis. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on (pp. 3829-3833). IEEE.
2016Wang, W., Xu, S., & Xu, B. (2016). First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention. In INTERSPEECH (pp. 2243-2247).
2016谷歌WaveNet的横空出世Oord, A. V. D., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., ... & Kavukcuoglu, K. (2016). Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499.
2017Deep Voice的问世Arik, S. O., Chrzanowski, M., Coates, A., Diamos, G., Gibiansky, A., Kang, Y., ... & Shoeybi, M. (2017). Deep Voice: Real-time neural text-to-speech. arXiv preprint arXiv:1702.07825.

发展分析

瓶颈

目前在单字和词组一级上,合成语音的自然度和可懂度基本可以满足,但是到句子和篇章一级时,自然度还是一个较大的问题。其次,人类语音饱含情感,语气语速,并且不同年龄有不同的说话方式,这是现在语音合成所无法较好做到的。另外,语音合成还无法做到多语种合成,现在绝大部分系统都是基于单语种的合成。

未来发展方向

正如瓶颈中所描述的一样,语音合成系统的最终发展方向是能够像人类一样做到长篇,情感语气,多语种的自然语音合成。其效果应与人类说话无异。

Contributor: Yuanchao Li

相关人物
Junichi Yamagishi
Junichi Yamagishi
陶建华
陶建华
中国科学院自动化研究所 所长助理 模式识别国家重点实验室 副主任 中欧信息自动化应用数学联合实验室 中方主任 国家杰出青年科学基金获得者 国家万人计划领军人才 研究领域 语音与语言处理、多模态人机交互、情感计算、大数据分析、模式识别 教育背景 学历 清华大学计算机系 2001年获博士学位 南京大学电子系 1996年获硕士学位 南京大学信息物理系 1993年获本科学位
Keiichi Tokuda
Keiichi Tokuda
简介
相关人物