麻省、谷歌、斯坦福、Yandex的10个机器学习和数据科学必修课程陪你走完2018

这是一系列免费的机器学习数据科学课程,课程范围从入门机器学习深度学习自然语言处理等。

此系列由麻省理工学院、谷歌、斯坦福大学、fast.ai和Yandex数据学校提供,内容主要如下:

麻省理工学院

  • 6.0002计算思维与数据科学

  • 6.S191深度学习简介课程

斯坦福大学

  • CS229: Machine Learning课程

  • CS 124:从语言到信息课程

fast.ai

  • 编码器机器学习简介课程

  • 编码器实用深度学习课程

  • 编码器的计算线性代数课程

谷歌

  • 机器学习速成课程

Yandex数据学校

  • 自然语言处理课程

  • 实用强化学习课程

麻省理工学院 

6.0002计算思维与数据科学课程

麻省理工学院的6.0002计算思维与数据科学课程是6.0001计算机科学和Python编程简介的延续,适用于编程经验很少或没有编程经验的学生。它旨在让学生了解计算在解决问题方面可以发挥的作用,并让学生相信他们能够编写小程序,使他们能够实现有用的目标。该课程使用Python 3.5编程语言。

课程网址:https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/

6.S191深度学习简介课程

麻省理工学院的6.S191深度学习简介课程包括机器翻译、图像识别和游戏等应用。学生不仅会获得深度学习算法的基础知识,还会获得在TensorFlow中构建神经网络的实践经验。

课程介绍

课程网址:http://introtodeeplearning.com/

斯坦福大学

CS229: Machine Learning课程

斯坦福大学的CS229: Machine Learning课程提供机器学习和统计模式识别的广泛介绍。主题包括:监督学习(生成/判别学习、参数/非参数学习、神经网络支持向量机); 无监督学习聚类降维、核方法); 学习理论(偏差/方差权衡、VC理论); 强化学习和自适应控制。


该课程还将讨论机器学习的最新应用,例如机器人控制、数据挖掘、自主导航、生物信息学、语音识别以及文本和Web数据处理。


课程网址:http://cs229.stanford.edu/

CS 124:从语言到信息课程

斯坦福大学的CS 124:从语言到信息课程:介绍语义分析语言模型和向量语义等自然语言处理的模型方法,以及问答系统聊天机器人等应用。

课程网址:https://web.stanford.edu/class/cs124/#information

fast.ai

编码器机器学习简介课程

由Enlitic的创始人Jeremy Howard教授创办的编码器机器学习简介课程可以帮助你了解最重要的机器学习模型,并获取从头开始创建它们、数据准备、模型验证和构建数据产品的关键技能。

课程网址:https://course.fast.ai/ml

编码器实用深度学习课程

这个为期7周,大约有20个小时的编码器实用深度学习课程专为至少拥有一年编码经验的人而设计。你将学习到的内容,包含了获取在线GPU服务器 、搭建高度实用的计算机视觉模型、自然语言处理推荐系统

课程网址:https://course.fast.ai/

编码器的计算线性代数课程

编码器的计算线性代数课程的重点是:我们如何以可接受的速度和可接受的准确度进行矩阵计算?

该课程是2017年夏季旧金山大学的分析科学硕士课程,该课程使用Jupyter笔记本进行Python教学,使用Scikit-Learn和Numpy等大多数课程库,以及Numba和PyTorch。

课程网址:https://github.com/fastai/numerical-linear-algebra/blob/master/README.md

谷歌

机器学习速成课程

谷歌的机器学习速成课程包含一系列视频讲座课程、实际案例分析和实践练习。有25节课程和40多项练习,主要目的是通过速成课程学习并运用机器学习的基本概念,通过配套开展的 Kaggle 大赛获得实际体验。课程开始前,它会根据你选择的情况为你推荐课程,有趣的是,该视频讲座的配音是使用机器学习技术生成的。

课程网址:https://developers.google.com/machine-learning/crash-course/ml-intro

Yandex数据学校

自然语言处理课程

YSDA的自然语言处理课程包括了词向量、文本分类语言模型、结构化学习、期望最大化、机器翻译、领域适应性、对话系统等方面的内容。

课程网址:https://github.com/yandexdataschool/nlp_course

实用强化学习课程

YSDA和HSE的实用强化学习课程的宣言是“优化好奇心,实用性第一”,课程包括了RL问题、MDP、Q-learning、SARSA、近似强化学习、循环神经网络回顾、策略梯度方法等方面的内容。

课程网址:https://github.com/yandexdataschool/Practical_RL

学术头条祝大家圣诞快乐🎄

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
入门深度学习强化学习自然语言处理fast.ai数据科学机器学习斯坦福大学谷歌麻省理工
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

Q学习技术

Q学习是一种用于机器学习的强化学习技术。 Q-Learning的目标是学习一种策略,告诉智能体在什么情况下要采取什么行动。 它不需要对环境建模,可以处理随机转换和奖励的问题,而无需进行调整。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

VC理论技术

VC理论是统计学习理论的一个重要分支,统计学习理论的主要应用之一是为学习算法提供泛化条件。从这个角度来看,VC理论与稳定性有关,这是表征泛化的另一种方法。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~