Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱报道

时隔一年,Kevin P. Murphy《概率机器学习:进阶》成书,还开放了PDF下载

终于等到它,第二卷《概率机器学习:进阶》。

今天,谷歌研究科学家 Kevin P. Murphy 正式宣布:《概率机器学习:进阶》书稿已经完成,并面向公众提供免费下载。

图片

这本书是《概率机器学习:简介》的续编,说起来,Kevin P. Murphy 的概率机器学习书算是经典教材了,所以去年他宣布再版的消息曾引起广泛关注。

在第二卷《进阶》中,作者扩展了机器学习的范围,以包含更具挑战性的问题。例如探讨了在多种不同分布下的学习和测试;生成高维输出,如图像、文本和图形;基于潜在变量模型发现数据「洞察力」的方法;以及如何在决策和控制任务中使用概率模型和推理。

消息公布后,一部分读者立即下载了第二卷书稿并开始学习,另一部分读者则突然想起去年下载的第一卷还没翻开过……

不过,Kevin P. Murphy 提到,这本书也还没有全部完成,目前缺失一章内容且需要进一步校对。他还会对网络发布版本进行微调,最终书稿将在今年夏天发送给 MIT 出版社。

或许是因为第二卷成书的效率太高,一位读者表示大受震撼:「什么?第一卷我还没看完啊……」

图片

更多读者还是表达了对第二卷新书的期待:

「你找不到比这两本书更全面、更连贯的现代机器学习评论了(这里是第二本书)。这套书籍提供了一流的教育效果,只需要你愿意阅读……」

图片

图片

图片

阅读本书之前,读者应该基本了解 (监督) 机器学习和其他相关的数学主题 (概率、统计、线性代数、优化)。这些背景材料在第一卷中有所涉及,不过第二卷是自成一体的,先阅读第一卷不是必需的。

第二卷涵盖了众多主题,因此不可能把全部内容都放进书稿中,一些额外的材料可以在书籍主页的线上补充中找到,这个页面还包含用于复现书中大部分图形的 Python 代码。

作者表示,第二卷《概率机器学习:进阶》将于 2023 年正式出版。同时,去年成稿的第一卷《概率机器学习:简介》近日也已经正式出版,只是价格略贵:

图片

第二卷的整体目录如下:

图片

  • 书籍地址:https://github.com/probml/pml2-book/releases/latest/download/pml2.pdf

  • 完整目录:https://probml.github.io/pml-book/pml2/toc2-long-2022-02-27.pdf

这本书侧重于概率建模和推理,用于解决四种主要任务:预测 (分类和回归) 、生成 (图像和文本生成) 、发现 (聚类降维和状态估计) 和控制 (决策)。

第一部分更详细地介绍了这个领域的一些基本原理,并对一些第一卷中缺少的细节进行了详细介绍。

第二部分讨论了各种概率模型中的贝叶斯推理算法。这些不同的算法在速度、精度、通用性等方面的影响不同,由此产生的方法可以应用于许多不同的问题。

第三部分讨论了预测方法,用于适合 p (y|x) 形式的条件分布,其中 x ∈ X 是输入(通常是高维的),y ∈ Y 是期望的输出(通常是低维的)。这一部分假设了存在一个想要预测的正确答案,尽管通常这个答案是不确定的。

第四部分讨论了生成模型,形式为 p (y) 或 p (y|x),其中可能有多个有效输出。例如,给定一个文本提示符 x,希望生成一组多样化的图片 y 与标题相匹配。在预测设置中,评估这些模型比评估标题更难,因为它的期望输出是不清楚的。

第五部分将注意力转向了数据分析,讨论了一些旨在揭示有意义的潜在状态或模式的方法。这部分主要关注潜在变量模型,它们是 p (z, y) = p (z) p (y|z) 的联合模型,其中 z 是隐藏状态,y 是观测值,目标是从 y 中推断 z。(该模型可以选择性地以固定的输入为条件,得到 p (z, y|x)。)此外还探讨了一些方法,用于发现以 p (y|x) 形式的预测模型隐式学习到的模式,而不依赖于显式的生成模型

最后,第六部分讨论了如何使用概率模型和推理在不确定性中进行决策,引出了因果关系这个重要命题。

此外,由于内容涉及范围广泛,大约三分之一的章节是与客座作者共同撰写或合作撰写的,这些客座作者都是领域专家 (参见下面的贡献者完整名单)。

图片

图片

理论概率机器学习Kevin P. Murphy
1
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

推荐文章
暂无评论
暂无评论~