神经语言模型

语言模型是估计单词序列的联合概率函数,比如给一个长度为m的单词序列,通过使用语言模型,可以获得这m个单词分布的概率P(W1,...,Wm)。对于许多的自然语言处理的应用,可以估计不同短语的概率是极具应用价值的。语言模型可以应用于语音识别,机器翻译,语音标记,解析,手写识别,信息检索等领域。

简介

语言模型是估计单词序列的联合概率函数,比如给一个长度为m的单词序列,通过使用语言模型,可以获得这m个单词分布的概率P(W1,...,Wm)。对于许多的自然语言处理的应用,可以估计不同短语的概率是极具应用价值的。语言模型可以应用于语音识别,机器翻译,语音标记,解析,手写识别,信息检索等领域。

[描述来源:Ponte J M, Croft W B. A language modeling approach to information retrieval[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998: 275-281.]

神经网络语言模型是基于神经网络实现的语言模型。通过使用神经网络,将单词映射为向量作为网络模型的输入来估计单词序列的联合概率,过程如下图所示:

[图片来源:Ponte J M, Croft W B. A language modeling approach to information retrieval[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998: 275-281.]

发展历史

1991年,Miikkulainen和Dyer提出了使用神经网络训练语言模型的思想,随后在1996年,Schmidhuber提出使用神经网络根据前几个单词,预测下一个单词出现的概率。2000年,Xu和Rudnicky也提出了使用神经网络实现语言模型,然而这时应用的神经网络不存在隐藏成,而且输入是单个单词,这导致了模型只能获得一元文法和二元文法的统计结果。随后,在2003年,Bengio提出了使用一个三层的神经网络来训练N-gram语言模型,并通过实验结果证明了基于神经网络的语言模型的优越性。在2005年,Schwenk等人将神经网络语言模型应用于语音识别,并获得了突破性的进展,再一次证明了神经网络语言模型的优越性。2012年,全局的上下文信息被加入到了语言模型中并获得了再一次的突破。

主要事件

年份事件相关论文/Reference
1991提出了使用神经网络训练语言模型的思想R. Miikkulainen and M.G. Dyer. Natural language processing with modular neural networks and distributed lexicon. Cognitive Science, 15:343–399, 1991.
1996通过使用神经网络,在前几个单词的基础上预测下一个单词出现的概率J. Schmidhuber. Sequential neural text compression. IEEE Transactions on Neural Networks, 7(1): 142–146, 1996.
2000Xu和Rudnicky提出使用无隐藏层的神经网络实现语言模型W. Xu and A. Rudnicky. Can artificial neural network learn language models. In International Conference on Statistical Language Processing, pages M1–13, Beijing, China, 2000.
2003提出使用一个三层的神经网络来训练N-gram语言模型,并证明了神经网络语言模型的优越性Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(Feb): 1137-1155.
2005将神经网络语言模型应用于语音识别,并获得了突破性的进展。Holger Schwenkand Jean- LucGauvain. Training Neural Network Language Models On Very Large Corpora. in Proc. Joint Conference HLT/EMNLP, October 2005
2012将全局的上下文信息加入到了语言模型中Huang E H, Socher R, Manning C D, et al. Improving word representations via global context and multiple word prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 873-882.

发展分析

瓶颈

作为基于数据驱动的语言模型,它对数据的依赖性很强,并且容易发生过拟合的问题。在面对数据量不足或训练数据集与测试数据集相差较大时,会影响测试结果。

未来发展方向

语言模型的发展对于语音识别,解析和信息检索等后端工作显得尤为重要,而在这一步骤,简单的模型可以保证算法的实时性。因此,如何构建一个效果好,实时性高的语言模型是未来的发展趋势。

Contributor: Yilin Pan

相关人物
托马斯米科洛夫
托马斯米科洛夫
Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM、Word2Vec再到最近流行的FastText都与他息息相关。一个人对同一个问题的研究可能会持续很多年,而每一年的研究成果都可能会给同行带来新的启发。
简介
相关人物