杜伟、小舟报道

七年力作:UC伯克利马毅新书预印版开放下载,探讨低维模型与高维数据分析

这本书是一个承前继后的proposal,包括数据科学、机器学习从哪里来以及该往哪里去。

今日凌晨,加州大学伯克利分校电气工程与计算机科学系教授马毅(Yi Ma)宣布其与哥伦比亚大学电气工程系副教授 John Wright 合著的新书《High-Dimensional Data Analysis with Low-Dimensional Models: Principles, Computation, and Applications》开放了 pre-production 版本,读者可以在线下载了。

马毅教授表示,这本书他与合著者 John Wright 前前后后共写了七年,最后在疫情期间完成。此外,为了知识的完整性,他们还完成了一些填补空白的研究,包括与深度模型的紧密联系。最后,马毅教授认为,本书总体上算得上一个承前继后的 proposal,包括数据科学机器学习从哪里来以及该往哪里去。

本书涵盖了用于高维数据分析的新的数学原理(统计学与几何学)、可扩展(凸与非凸)优化方法以及一些重要的应用(例如科学成像、宽带通信、人脸识别、3D 视觉和深度网络等)。本书将用作数据科学信号处理、优化和机器学习领域的入门级研究生教材,它已经被用于 EECS 290(加州大学伯克利分校)和 ELEN 6886(哥伦比亚大学)两门课程。

本书将为学生提供关于高维几何、统计和优化概念和方法的系统性和严谨的训练。通过多样化丰富的应用设置和编程练习,本书还将教导学生如何在模型真实数据中正确使用这些概念和方法,以及如何解决现实世界的工程与科学问题。

此外,本书对讲师和学生都很友好。书中提供了丰富的图示、示例、练习和项目,学生通过这些概念和方法可以获得实践经验。

书籍链接:https://book-wright-ma.github.io/Book-WM-20201206.pdf

章节简介

本书共计 16 章节内容,篇幅 710 页,全书行文结构如下图所示:

本书主要包括三个方面的内容:原理、计算、应用(PCA)。

原理(2-7 章)

原理中包含稀疏、低秩、通用低维模型的基本属性和理论结果。这部分表述了恢复低维结构的逆问题变得易于处理,并且能够被有效解决所需的条件,并保证了正确性和准确率。

计算(8-9 章)

计算部分介绍了凸优化和非凸优化的方法,以开发适用于恢复低维模型的实用算法。这些方法展示了如何系统地提高算法效率并降低总体计算复杂度,从而使生成的算法快速且可扩展至大规模高维数据。

应用(10-16 章)

应用部分展示了前两部分(原理和计算方法)如何显著改善各种实际问题和事件的解决方案。这些应用也为如何适当自定义和扩展本书介绍的理想模型和算法提供了指导,以将应用和其他特定领域知识(先验或约束)结合起来。

作者简介

个人主页:https://people.eecs.berkeley.edu/~yima/

马毅(Yi Ma)为加州大学伯克利分校电气工程与计算机科学系教授。他的研究兴趣包括 3D 计算机视觉、高维数据的低维模型、可扩展性优化和机器学习,近来的研究主题包括大规模 3D 几何重构和交互以及低维模型与深度网络的关系。

个人主页:https://datascience.columbia.edu/people/john-wright/

John Wright 现为哥伦比亚大学电气工程系副教授。2009 年 10 月,他取得了伊利诺伊大学香槟分校的电气工程博士学位,2009 年至 2011 年在微软研究院工作。他的研究兴趣在于高维数据分析、信号处理计算机视觉和优化领域,其与 Wang 和 Spielman 合著的论文《Exact Recovery of Sparsely-Used Dictionaries》获得了 2012 COLT 最佳论文奖。

本书部分目录如下:

入门马毅低维模型高维数据分析
相关数据
马毅人物

加州大学伯克利分校电气工程与计算机科学系教授,BAIR成员。研究兴趣:计算机视觉、高维数据的低维模型、可扩展优化和机器学习、智能机器。近期研究低维模型和深度网络之间的关系、高维数据的稀疏表征和低秩近似、高维数据的聚类和分类、3D图像重建。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

推荐文章
暂无评论
暂无评论~