Trung Nguyen作者张一豪校对王雨桐翻译

免费!数据科学及机器学习必备书单下载!

本文将分理论部分和实际部分为你推荐一些机器学习和数据科学的相关书籍。

理论部分

以下都是机器学习的基础教材。如果你认真研读其中任意一本,这意味着你要分析其中的模型,推导和实现主推理算法并进行练习,这些教材可以为你提供坚实的背景。如果你是机器学习的入门菜鸟,这些书可能技术性很强,但是一旦你坚持完成其中一本,你会发现其他教材也变得简单易懂。

1. 统计学习精要(The Elements of Statistical Learning (ESL))

作者:Jerome H. Friedman, Robert Tibshirani, and Trevor Hastie

推荐语:经典之作!!这同时也是一个在线课程,新版教材提供R代码

2. 模式识别机器学习(Pattern recognition and machine learning (PRML))


作者:Christopher Bishop

推荐语:和ESL一样,这本也是必读之作。

3. 机器学习:概率学观点(Machine Learning: A Probabilistic Perspective)

作者:Kevin R Murphy

推荐语:如果你彻底学习(前文)PRML,你能掌握这本书中的大部分内容。 然而,这是一本有趣而全面的书,主要关注有原则的、概率性的建模方法。 它还附带Matlab中的代码。

4. 概率图模型(Probabilistic Graphical Models)

作者:Daphne Koller and Nir Friedman

推荐语:图模型为概率模型的表示、推理以及学习提供了框架。这个强大的框架为许多机器学习模型提供了宏观视角,否则这些模型仅仅被看作一堆不同的模型。书还配有Coursera的在线课程。

5. 强化学习(Reinforcement learning, an introduction)

作者:Richard S. Sutto and Andrew G. Barto

推荐语:尽管这本书还是一个初稿,但第二个版本已经写得很好,并且很好地解释了强化学习的概念和应用。

6. 神经网络深度学习(Neural networks and deep learning)

作者:Michael Nielsen

推荐语:Michael Nielsen的书更加实用,包含一些很酷的互动内容以帮助理解

7. 深度学习(Deep Learning)

作者:Ian Goodfellow and Yoshua Bengio and Aaron Courville

推荐语:相比上面Michael Nielsen书的实用性,本书则更全面。我建议按照给定的顺序阅读学习。

应用部分

1. 商业中的数据科学(Data science for business)

作者:Foster Provost and Tom Fawcett

推荐语:本书对非技术人员(如业务经理)非常友好。它还提供了有关如何执行数据科学项目的一些合理原则。强烈推荐此书!!

2. R数据科学(R for data science)

作者:Garrett Grolemund and Hadley Wickham

推荐语:特别是对R用户来说,这本是必读教材。

3. 应用预测建模(Applied predictive modelling)

作者:Kjell Johnson and Max Kuhn

推荐语:由非常流行的R包caret的作者撰写,也是一本必读教材。 它包含许多实用技巧和建议,不仅可用于建模,还可用于不同模型的数据准备。

4. 数据科学技术:市场营销、销售与客户关系管理领域(Mining Techniques: For Marketing, Sales, and Customer Relationship)

作者:Gordon S. Linoff and Michael J. A. Berry

推荐语:不要被标题误导,书中的数据科学技术普遍适用,不仅仅是对客户关系管理(CRM)。

5. 数据挖掘的数据准备(Data preparation for data mining)

作者:Dorian Pyle

推荐语:1999年出版,但今天仍然非常适用,本书提供了一个明细的清单,以便在准备分析数据时进行检查。

6. 网站优化的Bandit 算法(Bandit algorithms for website optimization)

作者:John Myles White

推荐语:本书介绍了标准的多臂赌博机算法(multi-armed bandit),并提供了多种语言的实现。

7. R数据科学实战手册(Practical data science with R)

作者:John Mount and Nina Zumel

推荐语:此书不像Johnson和Kuhn的书那样精致,但还是有一些值得了解的技巧。

原文标题:

Data science books - theory and practice

原文链接:

https://www.codementor.io/trungnguyen958/data-science-books-theory-and-practice-krrjgncy7

译者简介

王雨桐,统计学在读,数据科学硕士预备,跑步不停,弹琴不止。梦想把数据可视化当作艺术,目前日常是摸着下巴看机器学习

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门数据挖掘深度学习神经网络强化学习概率图模型机器学习数据科学
10
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~