语言模型

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源:维基百科
简介

从本质上说,语言模型的功能是尽可能多地封装所考虑的任务的语法、语义和语用特征。就其应用而言,语言模型用于表示一系列词语的概率分布。假设给定一个长度为$m$的序列,语言模型可以生成一个对应的$P ( w_1 , … , w_m ) $的概率。语言模型应用广泛,包括语音识别领域、OCR字符识别、手写体字符识别、信息检索等。通常分为两类:基于规则的语言模型和基于统计的语言模型。基于规则的语言模型又称文法型语言模型,人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识。现阶段以统计学为基础的统计语言模型广泛使用,包括n-gram语言模型、指数语言模型、基于神经网络的语言模型等。以bi-gram语言模型为例,句子I saw the red house对应的概率为:

[描述来源:Wikipedia,URL:https://en.wikipedia.org/wiki/Language_model ; Bellegarda J R. Statistical language model adaptation: review and perspectives[J]. Speech Communication, 2004, 42(1):93-108.]

发展历史

描述

语言模型应用广泛,在1975年、1976年间统计语言模型在应用上获得了成功,其后统计语言模型应用于多个领域,包括机器翻译、手写汉字识别、信息检索等。2003年,Benigo提出将词向量(word vector)的概念引用到基于神经网络的语言模型中,但这个模型参数较多,训练代价大。2010年,Tomas Mikolov提出了将循环神经网络(recurrent neural network)应用到语言模型中。

主要事件

A

B

C

1

年份

事件

相关论文/Reference

2

1975-1976

J.K.Bake和F.Jelinek首次将隐马尔科夫模型(HMM)应用到语音识别领域,是统计语言模型首次在应用上获得成功

J. K. Baker, “The DRAGON system—An overview,” IEEE Trans. Acoust., Speech Signal Processing, vol. ASSP-23, pp. 24–29, Feb. 1975. ; Jelinek F. Continuous speech recognition by statistical methods[J]. Proceedings of the IEEE, 1976, 64(4):532-556.

3

1990

Peter Brown将N-gram语言模型应用到机器翻译领域,用于统计目标语言文本出现的概率

Brown P F, Cocke J, Pietra S A D, et al. A statistical approach to machine translation[J]. Computational Linguistics, 1990, 16(2):79-85.

4

1992

Srihari将统计语言模型与语法信息结合进行手写汉字识别

Combining statistical and syntactic methods in recognizing handwritten sentences

5

1998

Pnoet和Corft首次将统计语言模型应用到信息检索中

A language modeling approach to information retrieval

6

2000

Collins等人首次提出boosting判别语言模型

Collins M, Koo T. Discriminative Reranking for Natural Language Parsing[J]. Proc Icml, 2000, 31(1):25-70.

7

2003

Yushaua Bengio等人引入了词向量的概念,提出了基于神经网络的神经网络语言模型

Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(Feb): 1137-1155.

8

2010

Tomas Mikolov提出了循环神经网络语言模型,降低了模型参数的个数

Song F, Croft W B. A general language model for information retrieval[C]//Proceedings of the eighth international conference on Information and knowledge management. ACM, 1999: 316-321.

发展分析

瓶颈

语言模型虽然在很多领域都取得了进展,但是现阶段只能建立短距离的词语之间的依赖关系,无法很好地获得长距离的依赖。此外现阶段的语言模型多用到字,词的简单信息,很难获得深层的语言知识,这样就导致了语言模型的描述能力比较差。而当训练数据与测试数据不同源时,模型的性能会变得很差。

未来发展方向

对于语言模型来说,虽然现阶段应用较为广泛,但它仍然有很大的提升空间:

  1. 建立的语言模型能够反映词与词之间的长时依赖关系
  2. 语言模型能够更多的反映段落的深层含义,对于神经网络语言模型而言,这需要增加网络的深度
  3. 加强语言模型的语料自适应能力
  4. 词表规模的选择,这是影响神经网络语言模型的一个重要因素

Contributor: Yilin Pan

相关人物
帕斯卡尔·文森特
帕斯卡尔·文森特
李飞飞
李飞飞
李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。
W·布鲁斯·克罗夫特
W·布鲁斯·克罗夫特
托马斯米科洛夫
托马斯米科洛夫
Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM、Word2Vec再到最近流行的FastText都与他息息相关。一个人对同一个问题的研究可能会持续很多年,而每一年的研究成果都可能会给同行带来新的启发。
约书亚·本吉奥
约书亚·本吉奥
约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。
简介
相关人物