一鸣参与

社科NLP课程来了:斯坦福开年公开课主讲NLP和社交网络应用

随着 NLP 技术的成熟,不少人文社科领域的专家也呼吁结合相关技术进行研究和学习。近日,斯坦福大学发布了一门明年 1 月的公开课程,主要关注 AI 中的自然语言处理和社交网络的结合应用,适合文科生学习。

斯坦福大学的 AI 相关公开课一直受到机器学习社区的关注。机器之心曾经也报道过斯坦福大学的 CS224n 自然语言处理课程。近日,斯坦福大学的另一门 NLP 公开课程也放出了课程通知,即将于 2020 年 1 月开始授课。

课程地址:http://web.stanford.edu/class/cs124/#schedule

这门课程最大的亮点在于:主讲 NLP 和人文社会学科的结合。课程对技术的介绍主要针对的是相关的应用,而非为了技术而讲技术。同时,课程要求也不高,很适合懂一点编程的文科学生学习。

课程内容

据课程页面介绍,这门课程偏向于学科交叉。它结合了自然语言处理信息抽取和社交网络,是一项在介绍 NLP 知识的同时融合社交网络应用的课程。

具体而言,课程会像很多 NLP 基础课程那样,介绍自然语言处理的相关知识。在算法方面包括:朴素贝叶斯逻辑回归、词嵌入、词向量等内容。在应用方面则包括了情感分析、信息抽取推荐系统和对话机器人,主要用于社交网络。此外,对于不了解 Python 的人来说,课程提供了一个可选的 Python 指导。

从内容来看,课程偏向入门,甚至没有看到神经网络之类的复杂模型。尽管课程要求中提到学生如果学习了斯坦福大学的 CS107、CS103 或 CS109 课程会很有帮助,但是这些也不是强制的。不过,如果学生参加过了 106B 的课程,具有一些编程经验会更好。

在教科书方面,课程使用的都是电子版的教科书,分别是以下两本:

书籍 1:Speech and Language Processing(3rd ed. draft)。这本书是电子版的,可以从网站直接打开。

阅读地址:http://web.stanford.edu/~jurafsky/slp3/

书籍 2:Introduction to Information Retrieval.(信息检索概论),作者是著名的 Christopher Manning 等。

斯坦福大学有一个免费阅读和下载地址:https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

课程共有十周,每周两次课。目前已经放出了完整的目录,机器之心整理如下:

课程视频和相关内容会在开课后进行更新,目前还没有相关信息。

讲师介绍

这门课程的主讲人是 Dan Jurafsky,是斯坦福大学的一位教授。主要研究方向是自然语言处理和社会科学的应用。

这位老师曾担任了 CS384 等课程的教师,也在 2012 年帮助过 Manning 在 MOOC 上的公开课。从专业背景来看,让这位老师教授这门课也就不足为奇了。

对于人文社科和 AI 的结合,近年来已经可以看到类似的趋势,如李飞飞等利用计算机视觉统计社区车辆类型,进而预测该社区在大选中的投票趋势。斯坦福大学本次公开这样一门课程,无疑会鼓励更多非计算机领域的学生,利用 AI 技术推进工作和研究。

入门社交网络信息抽取NLP斯坦福大学
2
相关数据
逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~