思源 晓坤 路雪编辑

MILA 2018夏季深度学习与强化学习课程资源大放送

MILA 2018 深度学习与强化学习夏季课程目前已经开放了教学资源,机器之心简要介绍了该课程所开放的资源与课程主题,读者可参考这些主题选择合适的课程。

课程地址:https://dlrlsummerschool.ca/

MILA 2018 夏季课程包括深度学习夏季课程(DLSS)和强化学习夏季课程(RLSS),并主要由以下机构支持。Yoshua Bengio 等人组织的夏季课程每年都非常受关注,每一个主题及讲师都是该领域的资深研究者,今年包括 Yoshua Bengio 和 Richard Sutton 在内的讲师大多来自常青藤院校、谷歌大脑、VECTOR INSTITUTE 和 MILA 实验室等知名的研究机构。

深度学习夏季课程

深度神经网络学习在多层抽象网络中呈现数据,这极大地提升了语音识别、目标识别、目标检测、预测药物分子活动和其他多项任务的水平。深度学习通过监督学习、无监督学习强化学习构建分布式表征,在大型数据集中构建复杂的结构。DLSS 将涵盖深度神经网络的基础和应用,从基本概念到尖端研究结成果。

深度学习夏季课程(DLSS)面向已具备机器学习(也可以是深度学习,但不是必须)领域基础知识并有志于进一步深入学习 的硕士研究生、工程师和研究者。今年的 DLSS 课程由 Graham Taylor、Aaron Courville 、Roger Grosse 和 Yoshua Bengio 共同组织。

强化学习夏季课程

RLSS 会覆盖强化学习的基础知识,并且展示其最前沿的研究方向和新发现,还会提供与研究生和业内高级研究人员进行交流的机会。值得注意的是,今年 Richard Sutton 会先给我们上一次强化学习「启蒙课」:《Introduction to RL and TD》。

本课程主要面向机器学习及其相关领域的研究生。参加者应该有过计算机科学和数学方面的进阶预训练的经验,今年强化学习夏季课程的组委会成员有 Amir-massoud Farahmand、Joelle Pineau 和 Doina Precup。

DLSS

深度学习夏季课程一共包含 12 个主题,它从机器学习基本概念与理论开始介绍了深度学习常见的方法与理论。包括可学习理论、最优化理论以及循环和卷积神经网络等。如下所示为各位讲师及他们带来的课程主题,我们将简要介绍每一个课程讲了些什么。

深度学习夏季课程

机器学习导论

机器学习一般分为三大类别:监督学习强化学习和无监督学习。来自杜克大学的 Katherine Heller 讲师会对这三种学习方式给出基本定义和区分,并辅以具体实例和算法示例的展示;以监督学习的角度,逐步引入线性拟合、误差估计、损失函数过拟合欠拟合正则化等基本概念;从贝叶斯定理的角度重新理解过拟合问题;将线性拟合方法推广,以处理更加复杂的线性拟合问题,最经典的算法为 Logistic 回归。

神经网络 I

在这节课中,来自谷歌大脑的 Hugo Larochelle 从神经网络的一般结构开始,过渡到深度学习。神经网路的介绍部分除了基本的前向传播、初始化、激活函数、反向传播过程的解释;和上一节课程的基本概念相对应,涉及损失函数正则化方法的实现,以及如何防止过拟合的方法,模型选择的方法;此外还有一些神经网络训练中常用的优化技巧,例如归一化、学习率调整等。

深度学习部分强调了训练困难的问题,主要分为两个类别,分别是欠拟合过拟合。讲师针对这两类问题分别对可能的原因和解决方法进行了深入的讨论,其中欠拟合问题一般和优化方法、计算硬件等有关,过拟合问题一般需要用正则化方法来解决,并介绍了一种有趣的正则化方法——无监督预训练;之后在介绍批归一化方法时,讲师强调,这种正则化方法可以同时改善上述两个训练难题。

神经网络 II

在这节课中,Hugo Larochelle 会解释和对比多种机器学习方式,包括监督学习、无监督学习、半监督学习迁移学习多任务学习、域适应、one-shot 学习、zero-shot 学习等;然后讲师会介绍如何根据具体问题设计神经网络的架构。最后,讲师会介绍神经网络研究中出现的奇异或难以理解的现象,包括对抗样本损失函数非凸性、数据记忆能力、数据压缩能力、初始化方法的影响甚至第一个训练样本的显著影响,以及灾难性遗忘现象等。

CNN 导论

在这节课中,来自谷歌研究院的 Jonathon Shlens 首先探讨了计算机视觉面临的主要挑战,简言之就是:我们不清楚人类视觉系统是怎么工作的,而现在我们也不清楚计算机视觉系统是怎么工作的,但这个领域的确在进步。卷积神经网络就是受到了生物视觉系统的工作方式的启发而提出来的。讲师强调了自然图像的统计需要遵循不变性,即对图像变换包括平移、剪裁、旋转、缩放等的不变性。这也正是卷积神经网络能成功的一大原因之一,它天然地引入了平移不变性,从而相对于全连接网络能显著减少参数数量;并且其架构和输入图像尺寸是无关的,因而更容易扩展。

在解释了基本概念的基础上,讲师进一步介绍了几个经典的卷积神经网络架构,比如 LeNet计算机视觉的进步也离不开大规模数据集和算力的发展,尤其是 ImageNet 数据集的提出。讲师还强调了归一化方法的规范和稳定作用,并概述了多种归一化方法,包括批归一化、层归一化、实力归一化、组归一化等。然后讲师从增加深度的角度探讨了卷积架构的演变,并从图像特征不变性的角度探讨了迁移学习方法的发展,尤其是目标检测和分割任务上的架构演变。

接着讲师探讨了架构搜索方法的发展和卷积网络的特征可解释性问题,并在最后讨论了卷积神经网络研究领域面临的主要挑战。

理论基础

普林斯顿大学的 Sanjeev Arora 着重介绍了深度神经网络的理论基础,很多读者可能首先想到的就是万能近似定理,即足够宽的单层感知机可以拟合任意函数。但 Arora 更关注于最优化性能、泛化性能、深度法则和其它有可能代替神经网络的简单方法。

最优化

多伦多大学的 Jimmy Ba 介绍了最优化基础的第一部分,他主要介绍了随机搜索与梯度下降、如何搜索更好的下降方向以及如何设计一个「白盒」的最优化方法。这些主题都是从神经网络的角度来探讨的,甚至还介绍了如何采用随机搜索的方式学习神经网络参数

在整个课程中,他介绍的梯度下降是比较重要的话题,包括梯度下降为什么能朝着更好的方向学习参数、它又如何遭受极值点和鞍点的困扰等。当然既然有这些问题,Jimmy Ba 也会介绍比较好的解决方法,即将物理学中动量的概念引入梯度下降,这样就能克服这些问题。

美国西北大学 Jorge Nocedal 随后介绍了最优化的第二部分,他主要从理论的角度解释了如何理解随机梯度下降拟牛顿法等其它最优化方法,并提出了很多能获得更快下降速度的技巧。

RNN

主讲人 Yoshua Bengio 首先介绍了循环神经网络及其变体,如生成 RNN(Generative RNN)、双向 RNN、递归网络、多维 RNN 等,并详细介绍了 RNN 中涉及的基本概念和原理,如条件分布、最大似然、通过增加深度来提升 RNN 的表达能力等。然后,Bengio 介绍了 RNN 中的梯度问题,包括梯度消失、梯度爆炸及其解决方案。还介绍了多种 RNN trick,如梯度裁剪、跳过连接、Momentum、初始化、稀疏梯度等。此外,这节课还介绍了注意力方面的知识,如基于注意力的神经机器翻译、图注意力网络、多头注意力、自注意力和 Transformer 等。

语言理解

来自 CMU 的 Graham Neubig 主讲这门课《自然语言理解》,共分为三部分:语言建模、序列传导(sequence transduction)和语言分析。从现象到原理到解决方案,由浅入深,图文并茂。语言建模部分介绍了 NLP 中的一些基本知识:词袋模型(BOW)、连续词袋模型(CBOW)、Deep CBOW、Bag of n-grams、池化、NLP 预测任务中的神经网络基本思路等。此外,这部分还介绍了用于 NLP 任务时 CNN、RNN 的优缺点。序列传导部分介绍了条件语言模型(Conditioned Language Model)、生成问题、句子表征和注意力机制。第三部分语言分析介绍了三个分析任务:标注、句法分析和语义分析。

多模型学习

Google AI 研究科学家 Jamie Kiros 主讲这门课,主要介绍 Grounded Language Learning,共分为三个部分:Grounding and Scope、构造块(包括当前最佳实践),以及与其他研究之间的关系。第一部分介绍了 natural language grounding 的发展历史以及两种主要方法:Tie training and evaluation scopes、Grow training scope, evaluate in world scope。第二部分介绍了五个通用组件:编码、解码、交互(interaction)、预测/控制、目标函数;三种交互方式:Scoring、Fusion 和 Modulation。第三部分介绍了与 Grounded Language Learning 相关的研究领域:Contextualization 、Multi-apt representations、Relevance Realization、Specificity、自然语言生成和对话。

计算神经科学

主题为「大脑中的深度学习」。这门课从「为什么深度学习不止用于 AI?」这个问题入手,指出深度学习研究的目标之一是理解大脑的运行原理。然后指出深度学习需要什么:根据隐藏层对网络输出的贡献向神经突触分配信用(credit)。接着介绍解决方案——反向传播,以及原版反向传播的生物问题。最后介绍了四个问题:error term、下游权重(downstream weight)、derivatves of spikes 和前向/反向传输。

RLSS

强化学习夏季课程另外一系列优秀的资源,它从强化学习的「启蒙」到深度强化学习模仿学习介绍了 RL 的主要脉络与基础。不过强化学习夏季课程可能需要一些数学基础,这样才能比较好地理解随机采样等具体方法。

此外,读者也可以查看阿尔伯塔大学计算机系博士 Yuxi Li 的深度强化学习手稿,这份 150 页的手稿从值函数、策略、奖赏和模型等六个核心元素详细介绍了深度强化学习的方向与细节。

下图展示了强化学习夏季课程的主题与演讲者,我们只简要介绍 Richard Sutton 给我们的强化学习「启蒙」。

在 Sutton 的课程中,他首先介绍了在 9 月份正式发布的《Reiforcement Learning: An Intrifuction》第二版,这本书的电子版同样可以从 Sutton 的主页获得。随后 Sutton 从生物学基础开始介绍了什么是强化学习,即给定环境和状态的情况下智能体会采取某个行动,而这个行动又会影响到环境,因此影响后的环境将反馈给智能体一些奖励或惩罚,这样智能体在不同的环境下就知道该采取什么样的行动。

当然 Sutton 还介绍了强化学习的很多基本概念,包括什么是智能体、环境和策略等,此外也讨论了很多基本的强化学习方法,包括马尔可夫决策过程和 Q 学习等。

入门Richard SuttonYoshua Bengio强化学习深度学习
6
相关数据
约书亚·本吉奥人物

约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

欠拟合技术

使用太少参数,以致于不能很好的拟合数据,称为拟合不足(欠拟合)现象

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

LeNet技术

LeNet 诞生于 1994 年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展。自从 1988 年开始,在许多次成功的迭代后,这项由 Yann LeCun 完成的开拓性成果被命名为 LeNet5。LeNet5 的架构基于这样的观点:(尤其是)图像的特征分布在整张图像上,以及带有可学习参数的卷积是一种用少量参数在多个位置上提取相似特征的有效方式。在那时候,没有 GPU 帮助训练,甚至 CPU 的速度也很慢。因此,能够保存参数以及计算过程是一个关键进展。这和将每个像素用作一个大型多层神经网络的单独输入相反。LeNet5 阐述了那些像素不应该被使用在第一层,因为图像具有很强的空间相关性,而使用图像中独立的像素作为不同的输入特征则利用不到这些相关性。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

词袋模型技术

词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

拟牛顿法技术

拟牛顿法是一种以牛顿法为基础设计的,求解非线性方程组或连续的最优化问题函数的零点或极大、极小值的算法。当牛顿法中所要求计算的雅可比矩阵或Hessian矩阵难以甚至无法计算时,拟牛顿法便可派上用场。

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

多任务学习技术

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

层归一化技术

深度神经网络的训练是具有高度的计算复杂性的。减少训练的时间成本的一种方法是对神经元的输入进行规范化处理进而加快网络的收敛速度。层规范化是在训练时和测试时对数据同时进行处理,通过对输入同一层的数据进行汇总,计算平均值和方差,来对每一层的输入数据做规范化处理。层规范化是基于批规范化进行优化得到的。相比较而言,批规范化是对一个神经元输入的数据以mini-batch为单位来进行汇总,计算平均值和方法,再用这个数据对每个训练样例的输入进行规整。层规范化在面对RNN等问题的时候效果更加优越,也不会受到mini-batch选值的影响。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~