Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

斯坦福NLP课程XCS224U视频全部放出,干货满满,速来听讲

50 个视频任君学习!

从对话智能体到搜索查询自然语言理解(NLP)是当今许多最令人兴奋的技术的基础。如何建立这些模型来高效、可靠地理解语言?如果你还没有那么清楚的话,是否会找个课程来听呢?

但是有些课程不仅天价还很难报名,有些课程不仅质量极高还免费公开。谁不想要这后者呢?

没错,今天机器之心为大家介绍的是斯坦福 XCS224U:自然语言理解 (2023)课程。它干货满满,讲师 Christopher Potts 让这门课充满魅力。更重要的是,这堂课已经放出了全部视频,50 个视频任君学习。

图片

视频地址:https://www.youtube.com/playlist?list=PLoROMvodv4rOwvldxftJTmoR3kRcWkJBp

该课程借鉴了语言学自然语言处理机器学习的理论概念。在这门以项目为导向的课程中,你将开发使机器理解人类语言的系统和算法。

课程前半部分将探索自然语言理解的三个基本任务:上下文语言表征、信息检索和 NLU 模型的高级行为评估。每个任务主题都包含实践部分,你将在其中建立基线模型。这些基线模型将帮助你开发自己的模型。

课程后半部分则将开展自然语言理解方面的原创项目,重点关注该领域的最佳实践。额外的讲座和材料将涵盖重要的主题,以帮助扩展和改进你的系统,包括评估和度量、语义解析和基础语言理解。

在这些课中,你将:

  • 开发对人类语言进行稳健机器学习理解的系统和算法;

  • 使用大型语言模型建立神经信息检索系统;

  • 利用上下文单词表示模型(如 transformers、BERT、ELECTRA 和 GPT),理解单词之间的语义和句法关系;

  • 利用经典和神经信息检索方法从文本中获取所需信息;

  • 设计并开展一个自己选择的 NLU 研究项目。

学前准备

划重点,该课程并不是针对小白的,而是需要在课程开始之前有所积累。

具体来说,学习课程之前,你需要有一些技术、知识基础,才能更加顺利地理解课程内容,完成课程相关任务。

  • 熟练掌握 Python:编码作业将使用 Python。因为有些作业需要熟悉基本的 Linux 命令行工作流程。

  • 熟悉微积分线性代数:需要能够熟练应用(多元)导数,并理解矩阵 / 向量符号和运算。

  • 掌握概率论:熟悉基本概率分布(连续、高斯、伯努利分布),能够定义连续和离散随机变量的概念:期望值、独立性、概率分布函数和累积分布函数

斯坦福还建议大家将自然语言处理 XCS224U 课程与深度学习 XCS224N 课程结合起来,效果更好。此外还贴心地给大家准备了一份复习 NLP 相关知识的材料清单,你可按需取用。

清单链接:http://web.stanford.edu/class/cs224u/background.html

讲师介绍

Christopher Potts 是斯坦福语言学教授,同时也是计算机科学教授和语言与信息研究中心(CSLI)主任。在研究中,他致力于使用计算方法探索情感如何在语言中表达,以及语言的产生和解释如何受到语篇、语境的影响。

他于 2005 年出版了《The Logic of Conventional Implicatures》一书,并发表了大量计算语言学和理论语言学方面的学术论文。图片

课程视频下面的评论中,网友们表达了对课程的喜爱。

图片

更有推荐者直接表达了对 Christopher Potts 的赞美,认为他是一位才华横溢的教育家,解释复杂的 ML 和 NLP 概念时具有特殊的才能。「我从他的研究和讲座中学到了很多东西。强烈建议观看他的新课程。」

图片

入门Christopher Potts斯坦福 XCS224U
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

累积分布函数技术

累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写“CDF”(Cumulative Distribution Function)标记。

导数技术

导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x_0) 或 df(x_0)/dx。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

微积分技术

微积分(Calculus)是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算,是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学,包括求积分的运算,为定义和计算面积、体积等提供一套通用的方法 。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~