EMNLP 2018:腾讯AI Lab解读16篇入选论文

EMNLP 是自然语言处理领域的顶级会议,它的全称是Conference on Empirical Methods in Natural Language Processing(自然语言处理中的经验方法会议),由国际语言学会(ACL)的SIGDAT小组主办,今年10月31日-11月4日将在比利时布鲁塞尔举行。

今年是腾讯AI Lab第2次参加EMNLP,共有16篇文章入选,涵盖语言理解、语言生成、机器翻译等多个研究主题。以下为摘要解读。

此外,在今年的多个顶级学术会议中,腾讯AI Lab也入选多篇论文,位居国内企业前列,包括机器学习领域顶会NIPS(20篇)和ICML(16篇)、计算机视觉领域顶会CVPR(21篇)和ECCV(19篇),以及语音领域顶会Interspeech(8篇)等。

1. QuaSE: 量化指导下的序列编辑

QuaSE: Sequence Editing under Quantifiable Guidance

论文地址:https://arxiv.org/abs/1804.07007

本文由腾讯AI Lab主导,与香港中文大学合作完成。本文提出了量化指导下的序列编辑(QuaSE)的任务:编辑输入序列以生成满足用于定量序列某种特定属性的数值的输出序列,同时保持输入序列的主要内容。例如,输入序列可以是字的序列,例如评论句子和广告文本。对于评论句子,数值可以是打分; 对于广告,数值可以是点击率。QuaSE的一个主要挑战是如何感知与数值相关的措辞,并仅编辑它们以改变结果。在本文中,所提出的框架包含两个潜在因子,即结果因子和内容因子,为输入句子提供方便的编辑以改变数值结果并保留内容。本文的框架通过对其内容相似性和结果差异进行建模来探索利用伪平行句对,以便更好地解耦潜在因子,从而允许生成更好地满足期望数值结果并保持内容的输出。对偶重构结构通过利用伪平行句对的潜在因子的耦合关系,进一步增强了生成满足预期的输出的能力。为了评估,研究人员准备了Yelp评论句子的数据集,用打分作为数值结果。本文报告和深入讨论了实验结果,以阐述框架的特点。

2. 利用深层表示进行神经机器翻译

Exploiting Deep Representations for Neural Machine Translation

本文由腾讯AI Lab主导,与南京大学合作完成。神经机器翻译系统通常由多层编码器和解码器构成,这允许系统对于复杂函数进行建模并捕获复杂的语言结构。 然而,通常情况下,翻译过程仅利用了编码器和解码器的顶层,这错过了利用在其他层中的有用信息的机会。 在这项工作中,研究人员提出用层聚合和多层注意机制的方法同时暴露和传输所有这些信号。 此外,本文引入辅助的正则化以鼓励不同的层捕获不同的信息。 研究人员在广泛使用的WMT14英语到德语和WMT17中文到英语翻译数据进行实验,实验结果证明了方法的有效性和普遍性。

3.自注意力神经网络模型的局部性建模

Modeling Localness for Self-Attention Networks

本文由腾讯AI Lab主导,与澳门大学合作完成。自注意力模型可以直接注意所有输入元素,在很多任务中被证明具有捕获全局依赖的能力。 然而,这种依赖信息的捕获是通过加权求和操作完成的,这可能会导致其忽视相邻元素间的关系。本文为自注意力网络建立局部性模型,以增强其学习局部上下文的能力。 具体而言,我们将局部模型设计为一种可学习的高斯偏差,这种高斯偏差表示了所强化的局部范围。 随后,所得到的高斯偏差被用于修正原始注意力分布以得到局部强化的权重分布。此外,我们发现在多层自注意网络中,较低层趋向于关注于尺寸较小的局部范围,而较高层则更注重全局信息的捕获。因此,为了保持原模型捕获长距离依赖能力的同时强化其对局部信息的建模, 本文仅将局部性建模应用于较低层的自注意力网络中。 在汉英和英德翻译任务的定量和定性分析证明了所提出方法的有效性和适用性。

4. 用于短文本分类的主题记忆网络

Topic Memory Networks for Short Text Classification

本文由腾讯AI Lab主导,与香港中文大学合作完成。许多分类模型在短文本分类上性能欠佳,其主要原因是短文本所产生的数据稀疏性问题。为了解决这一问题,本文提出了一种新颖的主题记忆机制用于编码那些对分类有用的主题表示,以提升短文本分类的性能。前人的工作主要专注于用额外的知识扩充文本特征或者利用已经训练好的主题模型,不同于过去的工作,本文的模型能够在记忆网络框架下通过端到端的方式同时学习主题表示和文本分类。四个基准数据集上的实验结果证明了本文的模型不仅在短文本分类上的性能超过了之前最先进的模型,同时也能够产生有意义的主题。

5. 一种用于自动构造中文错字检查语料的混合方法

A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

本文由腾讯AI Lab主导,与清华大学和腾讯SNG合作完成。中文错字的自动检查是一个富有挑战又十分有意义的任务,该任务不仅用于许多自然语言处理应用的预处理阶段,而且可以极大促进人们的日常读写。数据驱动的方法在中文错字检查十分有效,然而却面临着标注数据缺乏的挑战。这个工作提出了一种自动构造用于拼写检查数据集的方法,分别通过基于OCR和SR的方法构造视觉上和听觉上相似的字来模拟错字。利用本文提出的方法,研究人员构造了一个大规模的数据集用于训练不同的错字自动检查模型,在三个标准的测试集上的实验结果证明了本文自动构造数据集方法的合理性和有效性。

6. 基于对抗条件变分自编码器的中文诗歌生成

Generating Classical Chinese Poems via Conditional Variational Autoencoder and Adversarial Training

本文为腾讯犀牛鸟合作项目,与北京大学合作完成。计算机自动创作表达流畅、文字优美的诗歌是一个难题。虽然之前的相关研究已经取得了引人注目的成果,自动生成的诗歌依然和诗人创作的有很大差距,尤其是主旨一致性和用词的新颖性。 在本文中,研究人员提出结合条件变分自编码器和对抗训练的策略来生成诗歌。实验结果表明,不管是自动指标还是人工测评,本文的模型都有显著的提高。

7. 面向摘要生成的交互文档表表征学习及润色

Iterative Document Representation Learning Towards Summarization with Polishing

本文为腾讯犀牛鸟合作项目,与北京大学合作完成。通过观察人类生成摘要时对文档阅读及理解多遍的事实,文本提出了基于交互式文本摘要技术的抽取式摘要生成模型。考虑到当前摘要生成技术局限于对待生成摘要文本只处理一遍,多数文本表达无法得到全局最优的结果。针对这种情况,本文提出的方法能够持续选择,更新相应文本及优化相应的文本表征。在CNN/DailyMail和DUC2002数据及上的实验结果证明,本文提出的方法在自动及人工评测方面均超越了以往最好的模型。

8. 面向回复生成的变分自回归解码器

Variational Autoregressive Decoder for Neural Response Generation

本文由腾讯AI Lab参与,与哈尔滨工业大学合作完成。由于结合了概率图模型神经网络的优点,条件变分自编码机(Conditional Variational Auto-encoder (CVAE))在诸多自然语言处理应用例如开放域对话回复上,表现出了优秀的性能。然而,传统CVAE模型通常从单一的潜在变量中生成对话回复,这一模型很难对回复中的多样性进行准确建模。为了解决这一问题,本文提出了一种将序列化的潜在变量引入对话生成过程中的模型。在此模型中,研究人员使用一个后向循环神经网络(Recurrent Neural Network, RNN)扩展近似后验概率分布,其中后向循环神经网络使得本文的模型能更好捕捉文本生成过程中的长距离依赖问题。为了更好训练本文提出模型,研究人员在训练过程中加入了预测后续文本词袋(bag-of-words)的辅助目标。在OpenSubtitle和Reddit对话生成数据集的实验上表明本文提出的模型可以显著提升生成回复的相关性与多样性。

9. 具有差异性约束的多头注意力机制

Multi-Head Attention with Disagreement Regularization

本文由腾讯AI Lab主导,与香港中文大学和澳门大学合作完成。多头注意力机制因其能在不同子空间学习不同表征的能力受到研究者欢迎。在这个工作中,本文引入一种差异性约束来显式地鼓励多个注意力头的多样性。具体地,本文提出了3种差异性约束,分别鼓励每个注意力头在输入子空间、注意力对齐矩阵、输出表示上跟其他的注意力头不一样。研究人员在广泛使用的WMT14英语到德语和WMT17中文到英语翻译数据进行实验,实验结果证明了方法的有效性和普遍性。

10.一种基于共享重构机制的缺略代词还原与神经网络机器翻译联合学习方法

Learning to Jointly Translate and Predict Dropped Pronouns with a Shared Reconstruction Mechanism

论文地址: https://arxiv.org/abs/1810.06195

本文由腾讯AI Lab主导,与都柏林城市大学合作完成。在代词缺略语言(如,汉语)中,代词常常会被省略,但是这给机器翻译结果的完整性带来了极大挑战。最近 Wang et al. (2018) (Translating Pro-Drop Languages with Reconstruction Models) 的工作提出了利用重构机制来缓解神经网络机器翻译中的缺略代词问题。本文从两个方面进一步加强了原有的重构模型。首先,本文提出了共享式重构器来充分利用编码器和解码器端的表示。第二,为了避免额外的缺略代词标注系统的错误传递,本文利用联合学习方法提出了缺略代词预测和翻译的端到端模型。

11. 一种减少神经网络对话模型生成通用回复的统计重加权方法

Towards Less Generic Responses in Neural Conversation Models: A Statistical Re-weighting Method

本文由腾讯AI Lab主导,与苏州大学和武汉大学合作完成。序列到序列Seq2Seq)的神经网络生成模型已经在短文的对话生成任务中取得了不错表现。但是,这些生成模型往往容易生成通用、乏味的回复,非常影响对话的体验。研究人员观察到在对话任务中,每个输入语句都有可能对应着多个合理回复,即表现为1对n(或者以整个语料集的角度看是m对n)的形式。这种情形下,使用标准的Seq2Seq目标函数,模型参数容易通过损失代价被通用(高频)的句子样式主导。受此启发,本文提出一种基于统计重加权的方法赋予输入语句对应的多个可接受回复不同的权值,并使用经典的神经网络生成模型进行训练。在一份大型的中文对话语料集上的实验结果表明,本文提出的方法在提高模型生成回复的接受率的同时,明显地减少了通用回复的数量。

12. 将数学问题翻译为表达式树

Translating a MathWord Problem to a Expression Tree

本文由腾讯AI Lab主导,与电子科技大学和香港中文大学合作完成。序列到序列模型已经成功的在自动解数学题方向取得了较大成功。然而,这种方法虽然十分的简单有效,却仍然存在一个缺点: 一个数学问题可以被多个方程正确的解出。这种非确定性的映射关系损害了最大似然估计的性能。本文利用表达式树的唯一性提出了一种公式归一化的方法。此外,本文还分析了三种目前最流行的序列到序列模型在自动解数学题任务上的性能。研究人员发现每个模型都有自己的优点和缺点,因此本文进一步提出了一个集成模型来结合他们的优点。在数据集 Math23K上的实表明使用公式归一化的的集成模型明显优于以往最先进的方法。

13. 循环神经网络语言模型下n-gram的边际概率估计

Estimating Marginal Probabilities of n-grams for Recurrent Neural Language Models

本文为腾讯AI Lab犀牛鸟Gift Fund项目,与美国西北大学合作完成。循环神经网络语言模型(RNNLMs)是当前统计语言建模的主流方法。然而,RNNLMs只能对完整的文本序列进行概率计算。在一些实际应用当中,往往需要计算上下文无关的(context-independent)短语的概率。本文中,研究人员探索了如何计算RNNLMs的边际概率:在前文(preceding context)缺失的情况下,模型如何计算一个短文本的概率。本文提出了一种改变RNNLM训练的方法,使得模型能够更加精确地计算边际概率。实验结果表明,本文的技术优于基线系统,如传统的RNNLM以及重要度采样法。本文还给出了如何利用边际概率改善RNNLM的方法,即在训练中使边际概率接近于一个大数据集中n-gram的概率。

14. 基于混合注意力机制的在线论辩赞成/反对关系识别

Hybrid Neural Attention for Agreement/Disagreement Inference in Online Debates

本文由腾讯AI Lab参与,与哈尔滨工业大学合作完成。推断辩论尤其是在线辩论文本间的赞成/反对关系是论辩挖掘的基本任务之一。赞成/反对的表达通常依赖于文本中的议论性表达以及辩论参与者之间的互动,而以往的工作通常缺乏联合建模这两个因素的能力。为了解决这一问题,本文提出了一种基于神经网络的混合注意力机制,其结合了自我注意力机制以及交叉注意力机制,分别通过上下文语境和用户间的交互信息来定位文本中的重要部分。在三个在线辩论数据集上的实验结果表明,本文提出的模型优于现有的最优模型。

15. XL-NBT: 一种跨语言神经网络置信跟踪框架

XL-NBT: A Cross-Lingual Neural Belief Tracking Framework

论文地址:https://arxiv.org/pdf/1808.06244.pdf

本文为腾讯AI Lab犀牛鸟Gift Fund项目,与美国俄亥俄州立大学和加州大学圣塔芭芭拉分校合作完成。实现跨语种对话系统在实际应用(如自动客服)中具有重要的实际意义。现有方法实现多语种支持通常需要对每一个语言单独标注。为了避免大量的标注成本,作为实现多语种通用对话系统这一终极目标的第一步,本文研究一个完全不需要新语种标注的跨语种的神经网络置信跟踪框架。具体来讲,本文假设源语言(例如英语)存在一个已经训练好的置信跟踪器,而目标语言(如德语或者意大利语)不存在相应的用于训练跟踪器的标注数据。本文采用源语言的跟踪器作为教师网络,而目标语言的跟踪器作为学生网络,同时对置信跟踪器进行结构解耦并借助外部的一些平行语料来帮助实现迁移学习。本文具体讨论了两种不同类型的平行语料,得到两种不同类型 的迁移学习策略。实验中研究人员用英语作为源语言,用德语和意大利语分别作为目标语言,实验结果验证了本文提出方法的有效性。

16. 自然语言视频时域定位

Temporally Grounding Natural Sentence in Video

本文由腾讯AI Lab主导,与新加坡国立大学合作完成。本文介绍一种有效且高效的方法,可以在长的未修剪的视频序列中定位自然语句表达的相应的视频内容。 具体而言,本文提出了一种新颖的Temporal GroundNet(TGN),用于捕获视频和句子之间不断演变的细粒度视频帧与单词之间的交互信息。 TGN基于所挖掘的视频帧与单词之间的交互信息地对每帧的一组候选者进行评分,并最终定位对应于该句子的视频片段。 与以滑动窗口方式分别处理重叠段的传统方法不同,TGN考虑了历史信息并在单次处理视频后生成最终的定位结果。 研究人员在三个公共数据集上广泛评估本文提出的TGN。实验证明TGN显著的提高了现有技术的性能。 本文通过相应对比试验和速度测试进一步显示TGN的有效性和高效率。

腾讯AI实验室
腾讯AI实验室

理论表征学习文本分类神经网络计算机视觉机器翻译NLPEMNLP 2018腾讯AI Lab
2
相关数据
自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

最大似然估计技术

极大似然估计是统计学中用来估计概率模型参数的一种方法

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

后验概率技术

在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

长距离依赖技术

也作“长距离调序”问题,在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

序列到序列技术

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~