语言识别

Language identification

在自然语言处理中,语言识别或语言猜测是确定给定内容所使用的自然语言的问题。针对该问题的计算方法被视为文本分类的特例,并用各种统计方法解决。

来源:Wikipedia
简介

语言识别是根据文档上下文信息自动检测文档中是哪种语言的任务。比如单词 "Sprachidentifikation" 这里,有一部分德语,但是剩余的都是英语。

有几种统计方法使用不同的技术来对数据进行分类。一种技术是将文本的可压缩性(compressibility)与一组已知语言中文本的可压缩性进行比较。这种方法被称为基于互信息的距离测量。同样的技术,使用 historical methods,也可以用于构建密切相关的语言的家族树 。因为互信息(mutual information)的距离度量基本上与基于模型的方法得距离是相等的,所以通常不被认为是新颖技术。

Cavnar 和 Trenkle( 1994)和 Dunning(1994)所描述的另一种技术是从每个语言的“训练文本”中创建一个语言N-gram模型。这些模型可以基于字符(Cavar 和 Trenkle),也可以基于编码字节(Dunning);在后者中,语言识别和字符编码检测被集成。然后,对于需要识别的任何文本,进行相似计算,并将该模型与每个存储的语言模型进行比较。最相似的模型就会被认为是该文本的语言。当输入文本处于没有模型的语言时,这种方法可能是有问题的。在这种情况下,该方法可以返回另一个“最相似”的语言作为结果。任何方法的问题都是由几种语言组成的输入文本,这在Web上是常见的。

出处:wiki; URL:https://en.wikipedia.org/wiki/Language_identification

发展历史

最早的语言识别的工作是出现于1965年,以为分析师,Mustonen基于单词的level,使用多种判别分析来教计算机如何区分英语、瑞典和芬兰语言。Mustonen编纂了一个基于字符的语言动机的特征列表,并将其语言标识符从词典中,对三种语言都提取出300个单词,用作训练数据。训练过程创建了两个判别函数,用100个单词对每个语言进行测试。实验结果是76%的单词被正确分类;可是按照目前的标准,这样的数据量并不够。

20世纪70年代初,Nakamura(1971)考虑了自动语言识别问题。根据Rau(1974)和Nakamura文章的摘要,他的语言标识符能够区分用拉丁字符书写的25种语言。该方法使用每种语言中的字符和单词的出现频率作为语言识别的特征。从抽象的角度看,除了频率之外,他还使用了一些Boolean布尔类型来表示关于特定的字符或字的二进制存在/不存在,并也适用了手动的语言识别技术。

Rau(1974)在Naval Postgraduate School at Monterey, California 研究院写了自己的硕士论文“Language Identification by Statistical Analysis”。最近的文章,例如Keerthy, Lakshmi, and Sreekumar (2013), Rowe, Schwamm, and Garfinkel (2013), Tratz (2014), and Voss, Tratz, Laoudi, and Briesch (2014),证明了在军事情报设置中持续使用文本和使用语言识别的必要性。Rau(1974)使用了字符和字符双元的相对频率作为语言识别的特征。通过使用Kolmogor Smirnov的拟合优度检验和Yulle的特征(K)的7个分类起进行多数投票,结果在区分英语和西班牙语时,获得了89%的准确度。他的论文实际上包括标识符程序代码(IBM System/360 Model 67 mainframe),甚至包括打印模型中使用的语言模型。最早的关于自动语言识别的研究主要集中在口头语言的识别上,还有没有区分书面语言和口语语言。例如,House 和 Neuburg (1977)的工作,主要集中在识别口语的语言上,但在广泛的语音信息的统计模型的基础上,展示语言识别的可行性做出了更广泛的贡献。然而,他们的实验不使用实际的语音数据。

语音的另一个子领域——语音合成speech synthesis,也从20世纪80年代开始在文本的语言识别中开始了大量的研究。在语音合成中,需要知道单个词的原始的语言是确定其应该如何发音的关键。Church(1985)使用字符三元组的相对频率作为概率,并使用贝叶斯来确定单词的语言。Church在文章中解释了该方法,并在语言识别中广泛使用。

Beesley(1988)的文章仅集中于语言识别的问题,这种单一的目的让他的研究具有更大的可见性。他实现方法的程序的目的是将文件路由到MT系统,在Beesley的论文更清楚地描述后,这种方法就是后来所称为字符N-gram模型。

字符的分布对于给定语言是相对一致的,已经众所周知。最早的早期工作,在自动语言识别问题是Cavnar和Trenkle(1994)。Cavnar和Trenkle的方法建立了perdocument和每种语言配置文件,并排序相似性度,根据最相似的语言来分类文件。他们用从USENET newsgroups获得的八种语言的3478个文档,并对它们进行评估,结果又99.8%的准确度。Gertjan van Noord提出了一种实现Cavnar和Trenkle 的方法,命名为TextCat。TextCat将多种语言的预训练模型打包,因此很可能Cavar和Trenkle的方法与现成的“off-the-shelf”实现相结合,导致了这种特殊方法的普及。Cavnar和Trenkle(1994)可以被认为是自动语言识别中的里程碑,因为它推广了在语言识别的字符N-gram模型上使用自动的方法,并且迄今为止,该方法仍然被认为是自动语言识别的基准。

出处:论文, URL:Automatic Language Identification in Texts: A Survey  

主要事件

年份事件相关论文
1967Gold, E. M.对语言辨识的局限进行描述Gold, E. M. (1967). Language identification in the limit. Information and control, 10(5), 447-474.
1994Cavnar, W. B., & Trenkle, J. M.提出经典的n-gram算法Cavnar, W. B., & Trenkle, J. M. (1994). N-gram-based text categorization. Ann arbor mi, 48113(2), 161-175.
2002Sebastiani, F.使用机器学习的方法对文档的自动分类Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1-47.
2018Jauhiainen, T., Lui, M., Zampieri, M., Baldwin, T.,对自动语言辨识进行回顾Jauhiainen, T., Lui, M., Zampieri, M., Baldwin, T., & Lindén, K. (2018). Automatic Language Identification in Texts: A Survey. arXiv preprint arXiv:1804.08186.

发展分析

瓶颈

最大瓶颈之一是如何区分密切相关的语言。类似塞尔维亚语和克罗地亚语;印度尼西亚语和马来语呈现出显著的词法和结构的重叠,使得系统区分它们是有挑战性的。

未来发展方向

最近,DSL共享任务被组织起来,提供了一个包含六种语言组的13种不同语言(和语言变体)的数据集(Tan et al., 2014) :A组(Bosnian, Croatian, Serbian),B组(Indonesian, Malaysian)。马来西亚人,C组((Czech, Slovakian),D组(Brazilian Portuguese, European Portuguese),E组(Peninsular Spain, Argentine Spanish),F组(American English, British English)。最好的系统达到超过95%个结果的正确率((Goutte et al., 2014)。

来源:CSDN; url: https://blog.csdn.net/real_myth/article/details/51418940

Contributor: Ruiying Cai

相关机构
  • kurohashi & kawahara lab
  • Algorithmia - Introduction to Language Identification
  • OHSU - Center for Spoken Language Understanding
  • JAIST Natural Language Processing Laboratory
  • Stanford - Natural Language Processing Group
  • MIT-IBM Watson AI Lab
相关人物
William Cavnar
William Cavnar
Gertjan van Noord
Gertjan van Noord
简介
相关机构
相关人物