思源 一鸣 张倩参与

只知道CS224N?斯坦福最新推出NLU公开课CS224U

NLP 标准公开课 CS224N 已经开放一段时间了,相信很多读者已经学了一遍了。最近,斯坦福自然语言理解公开课 CS224u 也开放了,所有课件、代码和视频都已经开放。嗯,是时候该学一波 CS224u 了。

这门课讲了什么?有门槛吗?

这门面向项目的课程侧重于开发系统和算法,以实现对自然语言的鲁棒机器理解。课程利用了来自语言学自然语言处理机器学习的理论概念。本课程还将包含有关项目开发、研究结果呈现以及与业界沟通的特殊课程。

在这门课程中,你将会学到词汇语义学、语义的分布式表征、关系抽取、语义分析、情感分析以及对话智能体等相关课程。

当然,该课程也有一定的门槛,要求参与课程的学生必须学过一些自然语言处理、数据结构与算法等相关课程,机器学习的基础知识也是必需的。此外,该课程比较特殊的地方在于,它要求学生了解逻辑学和语义学等相关知识,或者学过这些课程。

总体而言,如果读者已经看完了 CS224N 2019 年的开放课程,且想要更详细地了解自然语言理解这一问题,学习 CS224u 2019 是一个极好的选择。

课程方向与目标

整个课程的主题可以分为两大问题,即合成与学习。对于语义合成,我们需要探索如何从小的语义单位构造出大的语义,例如单词的语义表征怎么就能够造出句子的语义表征。对于学习,那我们就比较熟悉了,也就是如何构建一个能从数据中学习语义解释的模型。

最后,该课程的目标非常明确,即为成为 NLU 研究者或工程师打造坚实的理论和实战基础。整体课程内容足够支持我们完成一个非常不错的 NLU 项目,并足够强大到在 NLP 会议上展示我们的成果。

什么是自然语言理解

自然语言理解指的是使电脑或机器理解人类语言的相关技术。自然语言理解自然语言处理(NLP)的子任务,也是最为重要的任务。只有让机器理解人类语言,才能使其进行处理,甚至完成生成任务。

发展历史

和 NLP 类似,NLU 的发展也经历了从模式匹配专家系统机器学习深度学习的发展过程。其历史可以概括为以下五个阶段:

  • 1960 年代:小规则集的模式匹配

  • 1970-1980 年代:基于大量的语言学知识、逻辑驱动的基础系统,应用非常少;

  • 1990 年代中期:NLP 领域迎来统计学革命,NLU 式微;

  • 2000 年代后期:NLU 重回舞台,混合了现代和过去几十年的技术;

  • 2010 年代中期:深度学习完全把持 NLU,如 LSTM、seq2seq 等

应用

自然语言理解技术被广泛应用于多个需要对语言进行深层理解的领域,如机器阅读理解、智能语音问答、人机对话等。例如,在一些差旅 app 上,已经可以根据用户语音,自动为其订购机票、酒店、安排出发返程的时间表。其背后使用的就是自然语言理解技术。

通过自然语言理解,智能体能「理解」说话内容,并给出回答。

自然语言理解能区分评论情感,并对航班做出正确评分。

课程大纲

以下就是主要的课程主题了,该课程从今年 4 月份开始到 6 月份结束,囊括了自然语言理解的方方面面。每一个课程主题又会引出各种话题扩展,包括前沿论文的讲解、优秀模型的实现或重要问题的圆桌讨论等。

课程概览

1. 分布式词表征

2. 有监督情感分析

3. 自然语言推理

4. 基础语言理解

5. 语义分析

6. 利用较难的生成任务评估 NLU 模型

7. 带语境词的表征

8. 针对 NLU 的长文本表征

9. 介绍如何写论文和做展示

10. NLP 数据增强

11. 探测黑箱子模型

如下展示了所有课程大纲,包括各种子话题与学习资源。在课程主页中,该大纲链接了对应的文本或代码,其中额外教程通过 Jupyter Notebook 展示、课程主题通过课件展示、参考论文则直接链接到了 PDF。

理论课程斯坦福大学自然语言理解
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~