张倩编辑

十年之后,CV经典教材《计算机视觉:算法与应用》迎来第二版,初稿开放下载

你也在用《计算机视觉:算法与应用》入门 CV 吗?或许你手里的版本已经有点过时了。

提到计算机视觉领域的入门书,不少人会推荐 Facebook 研究科学家 Richard Szeliski 的《计算机视觉:算法与应用》。这本书的英文版于 2010 年出版,2011 年被翻译成中文在国内面世,成为很多人学习计算机视觉的入门教材。




这本书探索了用于分析和解释图像的各种常用技术,描述了具有一定挑战性的视觉应用方面的成功实例,兼顾专业的医学成像和图像编辑与拼接之类有趣的大众应用。在这本书中,作者从科学的角度介绍了基本的视觉问题,将成像过程的物理模型公式化,然后在此基础上生成对场景的逼真描述,他还运用统计模型来分析和运用严格的工程方法来解决这些问题。

作为一本被广泛采用的教材,《计算机视觉:算法与应用》非常受初学者欢迎,有人称赞其「为计算机视觉技术的初学者(本科生)提供了广泛的标准计算机视觉问题的坚实基础」。


内容引自知乎用户 @红色石头。原贴链接:https://zhuanlan.zhihu.com/p/85618233

还有人表示,这本书「写得很简单,看完后对这个领域有了很好的把握,而且很多内容都有代码,感兴趣的地方自己尝试后,对算法理解也加深了很多」。

内容引自知乎用户 @Recruit (https://www.zhihu.com/people/rui-shi-87)。原贴链接:https://www.zhihu.com/question/28813777/answer/85845127

毋庸置疑,《计算机视觉:算法与应用》是一本高质量的入门教材。但美中不足的是,这本书写于十年前,涉及的机器学习深度学习内容较少,而近年来,这两项技术又在视觉领域实现了爆炸式增长。

为了弥补这一缺憾,最近,作者 Richard Szeliski 在自己的个人主页上宣布,《计算机视觉:算法与应用》第二版已经基本完成,并发布了新书的 PDF 版本,向读者征集意见。

  • 新书主页:http://szeliski.org/Book/

  • 下载链接:https://www.dropbox.com/sh/88qvr1z7fpfx1tv/AAB4Ia3yEMuZ4WSzNWB5acTta?dl=0&preview=SzeliskiBookDraft_20200901.pdf


新书介绍了哪些内容?

Richard Szeliski 在新书的前言中介绍说,这本书萌芽于 2001 年,当时华盛顿大学的 Steve Seitz 邀请他一起讲授一门课程——「Computer Vision for Computer Graphics」。后来,这门课程逐渐演变成一份愈发完整的计算机视觉教学大纲,还形成了一套以项目为导向的课程结构。

基于这些课程经验和在企业研究实验室的多年积累,Richard Szeliski 写了《计算机视觉:算法与应用》的第一版。他表示,这本书更加强调能够在现实世界发挥作用的基本技术,而不是高深的数学原理。

第一版的《计算机视觉:算法与应用》共计 14 个章节,分别为:

  1. 引言;

  2. 图像形成

  3. 图像处理

  4. 特征检测与匹配;

  5. 分割;

  6. 基于特征的对齐;

  7. 由运动到结构;

  8. 稠密运动估计;

  9. 图像拼接;

  10. 计算摄影学;

  11. 立体匹配;

  12. 3D 重建;

  13. 基于图像的渲染;

  14. 识别。


第二版的《计算机视觉:算法与应用》也是 14 个章节,分别为:

  1. 引言;

  2. 成像;

  3. 图像处理

  4. 模型拟合与优化;

  5. 深度学习

  6. 识别;

  7. 特征检测与匹配;

  8. 图像对齐与拼接;

  9. 运动估计;

  10. 计算摄影学;

  11. 由运动到结构与 SLAM;

  12. 深度估计;

  13. 3D 重建;

  14. 基于图像的渲染;


新版目录如下:




可以看出,与第一版相比,第二版发生了很大的变化,其中最显著的变化包括:

  • 机器学习深度学习深度神经网络出现在第五章,因为它们在视觉算法中扮演的角色与前两章介绍的经典图像处理、图 / 概率模型、能量最小化方法一样重要。

  • 「识别」从第 14 章提前到了第 6 章,因为端到端深度学习系统不再需要开发特征检测、匹配、分割等构建模块,而大多数选修视觉课程的同学可能主要是对图像识别感兴趣,所以把这章提前有利于他们构建自己的项目。


除此之外,该书还增加了一些当前最新的技术、文献和应用,如手机计算摄影学和自主导航技术。

在之前的教学过程中,作者发现让学生实现一些小项目非常有用,有时这些项目甚至可以组成会议论文。因此,该书每一章末尾的练习都包含一些建议,针对一些期中小项目进行指导。此外,书中还包含一些尚未解决的开放性问题。

该书适用于计算机科学和电气工程高年级本科生和研究生。读者上手之前最好先学习一门图像处理计算机图形学课程,这样就能少花点时间学习数学基础知识,多一点时间去学计算机视觉技术。为了让读者了解该领域的最新进展,作者尽量引用最新的研究。

作者简介

Richard Szeliski 博士是计算机视觉领域的大师级人物,他在计算机视觉研究方面有 30 多年的丰富经验,主攻计算机视觉计算机图形学。


Richard Szeliski 先后任职于 DEC(美国数字设备公司)和微软研究院。1996 年,他在微软研究院任职期间提出了一种基于运动的全景图像拼接模型,采用 L-M 算法,通过求图像间的几何变换关系来进行图像匹配。此方法是图像拼接领域的经典算法,Richard Szeliski 也因此成为图像拼接领域的奠基人。

目前,Richard Szeliski 在 Facebook 担任研究科学家,他还是 Facebook 计算摄影部门的创始负责人。2017 年,Richard Szeliski 获得 ICCV 大会颁发的杰出研究奖。

Richard Szeliski 表示,他的新书还处在勘误、征集建议的阶段,读者可以通过电子邮件与他联系。

入门计算机视觉
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

图像形成技术

图像形成的研究包括通过放射测量和几何过程形成3D物体的2D图像的过程。 在数字图像的情况下,图像形成过程还包括模数转换和采样。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

特征检测技术

特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

知乎机构

作为中文互联网综合性内容平台,知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

https://www.zhihu.com
推荐文章
暂无评论
暂无评论~