Matthew Mayo作者梁傅淇校对肖镇东翻译

送你10本机器学习和数据科学必读书(附PDF下载)

让一系列免费的机器学习与数据科学书籍开启你的夏日学习之旅吧!

在读完本文列出的书单之后,如果你想要更多免费、高质量的书单,可以查看这个系列之前的帖子:

https://www.kdnuggets.com/2017/04/10-free-must-read-books-machine-learning-data-science.html

1. Python Data Science Handbook

链接:

https://github.com/jakevdp/PythonDataScienceHandbook

作者:Jake VanderPlas

这本书介绍了在Python中处理数据所需要的基本而重要的库,包括IPython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相关的包。该书假定读者对Python语言有一定的了解。如果你需要快速入门Python这门语言,可以查看免费的配套项目:

A Whirlwind Tour of Python:

https://github.com/jakevdp/WhirlwindTourOfPython

它会帮助研究员和科学家快速入门Python。

2. Neural Networks and Deep Learning

链接:

http://neuralnetworksanddeeplearning.com/
作者:Michael Nielsen

Neural Networksand Deep Learning是一本在线书籍。这本书会告诉你:

  • 神经网络是一种优美的仿生编程范例,它使得计算机能够通过观测数据进行学习。

  • 深度学习是一系列强大的技术, 以帮助实现在神经网络中学习。

神经网络深度学习目前是图像识别、语言识别自然语言处理等领域的最佳方案。该书同时也会教你神经网络深度学习的各种核心概念。

3. Think Bayes

链接:

http://greenteapress.com/wp/think-bayes/

作者:Allen B. Downey

Think Bayes是介绍如何通过编程方法进行贝叶斯统计的书籍。

这本书和其他Think X系列书籍的想法一样,他们认为只要你知道如何编程,那么你就可以通过这项技能来学习其他的课题。

大多数的贝叶斯统计书籍会使用数学符号并且通过微积分一类的数学概念来展现其统计思想。这本书则使用Python代码、离散逼近而非数学、连续数学来解释贝叶斯统计。通过这样的方式,在数学书里的积分,将会转变为求和。许多在概率分布上的操作将会通过简单的循环而实现。
4. Machine Learning & Big Data

链接:

http://www.kareemalkaseer.com/books/ml

作者:Kareem Alkaseer

这本书还没写完,我把它添加到表单,你可以稍后才看[H1] 。这个项目的目的在于平衡软件工程师的理论与实践,使他们能轻松地运行机器学习模型而并不需要过分依赖各种各样的库。大多数时候,模型或技术背后的概念是简单而直观的,但却在大量的细节或者术语中被掩盖了。同时,大多数情况下,现有的库能够解决手头的问题,但是他们却被视作一个黑盒子,通常因他们自身的抽象与架构隐藏了背后的基本概念。这本书将阐释这些基本概念。

5. Statistical Learning with Sparsity: 

The Lasso andGeneralizations

链接:

https://web.stanford.edu/~hastie/StatLearnSparsity/
作者:Trevor Hastie,Robert Tibshirani,Martin Wainwright

过去的十年里,计算和信息技术出现了爆炸性增长,同时出现了大量的源自不同领域的数据,例如医疗、生物、金融和市场营销。这本书将在一个通用的概念性框架下来讲解这些领域的重要思想。

6. Statistical inference for data science

链接:

https://leanpub.com/LittleInferenceBook

作者:Brian Caffo

这本书是Coursera数据科学项目(Data Science Specialization)中的统计推断(Statistical Inference)课程配套书籍。但是你并不需要上这门课,因为这本书的大部分内容可以独立使用。这本书其中一个重要的部分是一系列组成Coursera 课程的Youtube视频。这本书的出版诣在提供一个成本低廉的统计推断入门。目标读者是有数学或计算机背景的并且希望在统计和数据科学领域中得以运用的学生。这本书在Github上以markdown文档的形式免费提供。同时也以更便捷的形式(epub,mobi)在LeanPub和零售店提供。

7. Convex Optimization

链接:

http://stanford.edu/~boyd/cvxbook/

作者:Stephen Boyd,Lieven Vandenberghe

这本书是关于凸优化的,即一类数学优化问题,包括最小二乘方和线性规划。众所周知,最小二乘方和线性规划是非常完整的理论,它们有着各式各样的应用,并且可以用数学的方法高效地得出解。这本书的中心即阐述更多的凸优化问题。

8. Natural Language Processing 

with Python

链接:

https://www.nltk.org/book/

作者:Steven Bird,Ewan Klein,Edward Loper

这是一本关于自然语言处理的书。“自然语言”指的是人类日常交流使用的语言,例如英语、印度语和葡萄牙语。相较于数学符号、编程语言等人造语言,自然语言在时代变迁中不断进化,很难通过明确的规则来界定。我们这里定义的是广义上的自然语言处理,本书将会介绍计算机对自然语言各种形式的操作。

这本书基于Python语言,并同时提供名叫Natural Language Toolkit的开放资源库。

9. Automate the Boring Stuff 

with Python

链接:

https://automatetheboringstuff.com/

作者:Al Sweigart

如果你曾花过数小时时间在文件重命名和更新数百个电子表格数据上,那么你知道这些工作有多么枯燥乏味。但如果你能够让电脑可以帮你做这些呢?

这本书里,你会学习如何使用Python来编辑程序,来代替你做需要花几个小时的事情,并且你不需要有编程基础。当你很纯熟地掌握这些编程基础,你将能够使用Python编程毫不费力地实现许多有用并惊艳的自动化特技。

10. Social Media Mining: An Introduction

链接:

http://dmml.asu.edu/smm/
作者:Reza Zafarani, Mohammad Ali Abbasi and Huan Liu

过去十年中,社交媒体颠覆了个体的交流和行业间的经营方式。个体以史无前例的速度通过在社交媒体上交流、分享和消费内容产生大量数据。理解和分析这类新数据来收集可行的模型成为了交叉领域研究、新型算法和工具开发所面临的新机遇与新挑战。这本书结合了社交媒体,社交网络分析和数据挖掘,帮助学生、从业者、研究员和项目经理快速、清晰地理解社交媒体挖掘的基础和未来的可能性。

原文标题:

10 More Free Must-Read Books for Machine Learning and Data Science

原文链接:

https://www.kdnuggets.com/2018/05/10-more-free-must-read-books-for-machine-learning-and-data-science.html

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门数据科学机器学习
91
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

线性规划技术

在数学中,线性规划(Linear Programming,简称LP)特指目标函数和约束条件皆为线性的最优化问题。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

语言识别技术

在自然语言处理中,语言识别或语言猜测是确定给定内容所使用的自然语言的问题。针对该问题的计算方法被视为文本分类的特例,并用各种统计方法解决。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

微积分技术

微积分(Calculus)是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算,是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学,包括求积分的运算,为定义和计算面积、体积等提供一套通用的方法 。

推荐文章
好东西,都是干货