作者:Datawhale

李宏毅机器学习完整笔记发布,AI界「最热视频博主」中文课程笔记全开源

提起李宏毅老师,熟悉机器学习的读者朋友一定不会陌生。很多人选择的机器学习入门学习材料都是李宏毅老师的台大公开课视频。现在,机器学习爱好者有更完善的学习资料了。来自 Datawhale 的朋友整理、总结了李宏毅老师的机器学习视频教程,添加了课程笔记,实现了课程内容的完整复现。目前项目已完全开源,包括课程内容和复现代码,供大家使用。

目录

1.李宏毅机器学习简介

2.《LeeML-Notes》李宏毅机器学习笔记

3.《LeeML-Notes》学习笔记框架

4.笔记内容细节展示

a. 对梯度下降概念的解析

b. 为什么需要做特征缩放

c. 隐形马尔科夫链的应用

5.代码呈现

a. 回归分析

b. 深度学习

6.作业展示

7.交流互动

8.开源地址

9.配套视频

 1. 李宏毅机器学习简介

李宏毅老师现任台湾大学电气工程助理教授,研究重点是机器学习,特别是深度学习领域。他有一系列公开的机器学习课程视频,在机器学习领域是很多人入门的教材,人气不输吴恩达的 Coursera 机器学习课程。

李宏毅老师的课程视频包括多种监督学习、无监督学习、半监督学习等领域,算法包括简单的线性回归、logistic 回归、支持向量机,乃至深度学习中的各类神经网络模型。

「梯度下降」课程中的 PPT 。对比了不同梯度下曲线的形状。

词嵌入」课程中的PPT。展示了语义相似词语在词嵌入后呈现出的聚集关系。

因为课程中干货满满,李宏毅老师的课程视频也被称为中文世界中最好的机器学习视频。李老师以幽默风趣的上课风格让很多晦涩难懂的机器学习理论变得轻松易懂,他将理论知识与有趣的例子结合在课堂上展现,并且对深奥的理论知识逐步推导,保证学习者能够学习到问题的精髓所在。比如老师会经常用宝可梦来结合很多机器学习算法。对于想入门机器学习又想看中文讲解的人来说绝对是非常推荐的。

但是,考虑到很多机器学习爱好者对于课程笔记的需求,我们不仅仅需要的是教学视频。我们需要一份课程笔记,能够引领学习者的思路,帮助引导他们进入这个领域。因此,就诞生了这款《LeeML-Notes》李宏毅机器学习笔记。

 2.《LeeML-Notes》李宏毅机器学习笔记

LeeML-Notes 是 Datawhale 开源组织自《机器学习南瓜书》后的又一开源学习项目,由团队成员王佳旭、金一鸣牵头,8 名成员历时半年精心打磨而成,实现了李宏毅老师机器学习课程内容的 100% 复现,并且在此基础上补充了有助于学习理解的相关资料和内容,对重难点公式进行了补充推导。期间,Datawhale 开源组织打造了《李宏毅老师机器学习》的组队学习,在众多学习者共同的努力下,对该内容进行了迭代和补充。下面,让我们来详细了解下工作详情吧。

具体准备工作:

  • 2019 年 2 月--2019 年 4 月:笔记整理初级阶段,视频 100% 复现

  • 2019 年 4 月--2019 年 6 月:网站搭建,对笔记内容及排版迭代优化

  • 2019 年 5 月--2019 年 6 月:组队学习《李宏毅机器学习》并对内容进行迭代完善

  • 2019 年 7 月:最后内容修正,正式推广。

下图为修订记录表:

 3.《LeeML-Notes》学习笔记框架

3.a 亮点

这份学习笔记具有以下优点:

  • 完全将李宏毅老师的讲课内容转为文字,方便学习者查阅参考。

  • 不仅保留了 PPT 的内容,还根据课程内容补充了一些知识点。

  • 具有完整的代码复现资料。

3.b 笔记框架

内容在整体框架上与李宏毅老师的机器学习课程保持一致,主要由监督学习、半监督学习、迁移学习、无监督学习、监督学习中的结构化学习以及强化学习构成。建议学习过程中将李宏毅老师的视频和这份资料搭配使用,效果极佳。笔记也和课程视频完全同步。

目录详情见下:

  • P1 机器学习介绍

  • P2 为什么要学习机器学习

  • P3 回归

  • P4 回归-演示

  • P5 误差从哪来?

  • P6 梯度下降

  • P7 梯度下降(用 AOE 演示)

  • P8 梯度下降(用 Minecraft 演示)

  • P9 作业 1-PM2.5 预测

  • P10 概率分类模型

  • P11 logistic 回归

  • P12 作业 2-赢家还是输家

  • P13 深度学习简介

  • P14 反向传播

  • P15 深度学习初试

  • P16 Keras2.0

  • P17 Keras 演示

  • P18 深度学习技巧

  • P19 Keras 演示 2

  • P20 Tensorflow 实现 Fizz Buzz

  • P21 卷积神经网络

  • P22 为什么要「深度」学习?

  • P23 半监督学习

  • P24 无监督学习-线性降维

  • P25 无监督学习-词嵌入

  • P26 无监督学习-领域嵌入

  • P27 无监督学习-深度自编码器

  • P28 无监督学习-深度生成模型 I

  • P29 无监督学习-深度生成模型 II

  • P30 迁移学习

  • P31 支持向量机

  • P32 结构化学习-介绍

  • P33 结构化学习-线性模型

  • P34 结构化学习-结构化支持向量机

  • P35 结构化学习-序列标签

  • P36 循环神经网络 I

  • P37 循环神经网络 II

  • P38 集成学习

  • P39 深度强化学习浅析

  • P40 机器学习的下一步

 4. 笔记内容细节展示

4.a 对梯度下降概念的解析

在笔记中重新整理PPT内容,并增加了一些注释。

不对视频语音直接转文字,而是根据内容整理成知识点,方便读者理解阅读。

4.b 为什么需要做特征缩放

对特征缩放的PPT进行整理记录。

 4.c 隐形马尔科夫链的应用

隐形马尔科夫链在语言模型中的应用。

4.d 利用贴近学生的例题解释知识点


用算法对精灵宝可梦(神奇宝贝)进行分类。

 5. 代码呈现

代码在李宏毅老师提供代码的基础上进行了优化,在 python3 上全部调试通过。

5.a 回归分析

5.b 深度学习

Keras 的基础模型构建代码。

用Keras构建深层模型

6. 作业展示

对笔记课程的作业进行了讲解与解读,并且总结了一些需要注意的点,同样在 python3 上调试通过。

问题描述。


笔记中提供了课程作业的参考答案。

 7. 交流互动

目录中每一节最后都设置了交流互动区供大家总结学习内容、提出自己的疑问和广大学习者互动,可以使用 GitHub 登录,方便读者们交流。

  • 8.开源地址:https://github.com/datawhalechina/leeml-notes

  • 9. 配套视频:https://www.bilibili.com/video/av59538266

主要贡献人员

  • 负责人:王佳旭、金一鸣

  • 成员:黑桃、李威、 排骨、追风者、Summer、杨冰楠

入门机器学习在线课程李宏毅
28
相关数据
半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

回归分析技术

回归分析是一种用于估计变量之间的关系(当一个自变量变化而其它变量固定时,因变量会如何变化)的统计过程,在预测任务中有广泛的应用。回归分析模型有不同的种类,其中最流行的是线性回归和 逻辑回归(Logistic Regression)。另外还有多变量回归、泊松回归、逐步回归、脊回归(Ridge Regression)、套索回归(Lasso Regression)和多项式回归等等。随机梯度下降(SGD)就是一种起源于回归分析的常用方法,可用于控制复杂度。

推荐文章
暂无评论
暂无评论~