Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱报道

姚班校友、斯坦福助理教授吴佳俊翻译,视觉计算经典《Vision》中文版面世

这本书曾深刻地影响了一代脑、认知、计算机视觉领域的学者。

四十多年前,一本视觉计算理论的经典著作《Vision》正式出版。

图片

这本书的作者大卫 · 马尔(David Courtnay Marr)在计算机领域几乎无人不知。他是计算神经科学领域的创始人之一,曾任麻省理工学院心理学教授。为了纪念其贡献,计算机领域顶会 ICCV 特别设置了「马尔奖」,该奖项被看作是计算机视觉研究方面的最高荣誉之一。

马尔在 1980 年去世,一生的研究心血集结于遗著《Vision》中。在这本书中,马尔描述了理解视觉感知的通用框架,并介绍了关于如何研究和理解大脑及其功能等更广泛的问题。

长期以来, 马尔的创造力、智力以及整合来自神经科学、心理学和计算的见解和数据的能力,影响了来自大脑和认知科学领域的众多研究人员。

这本书厘清了计算理论、算法、实现三个研究层次,不仅对神经科学和认知科学都产生了深远影响,也对计算机视觉在 1980—1990 年代的蓬勃发展提供了指导思想。

马尔视觉计算理论的提出,标志着计算机视觉成为了一门独立的学科。《Vision》影响了一代大脑和认知科学家,激励了许多人进入该领域。

北京通用人工智能研究院院长,北京大学清华大学讲席教授朱松纯表示:「我在 1989 年作为一名大三学生有幸读到这本书的第一个中译本,从而走上了计算机视觉的科研道路。」

粤港澳大湾区数字经济研究院理事长,美国国家工程院外籍院士沈向洋表示:「我看过的第一本计算机视觉英文书就是 David Marr 的 Vision。」

马尔关注的低层视觉和三维结构的重建在很长一段时间内主导了计算机视觉的研究,而低层视觉和三维重建确实是人类视觉中不可或缺的部分。除了计算理论的进展,计算机视觉领域过去十年的爆发式进展还应当归功于算法(以卷积神经网络反向传播算法为代表)、硬件实现(以 GPU 为代表)和数据(以 ImageNet 为代表)这几个层次的进展。其中,计算理论、算法和实现三者与马尔的三个理解层次完全符合。

在近年深度学习的热潮之中,掌握本书介绍的视觉计算理论,对于在人工智能计算机视觉领域内开展进一步探索是至关重要的。

现在,这本经典著作的中文版已经正式面世!

图片

本书面向心理学、神经科学、计算机科学、人工智能计算机视觉等相关专业的研究人员、 研究生及高年级本科生等,可供学习使用或作为研究参考。

中文版《视觉》的译者是清华姚班校友、斯坦福大学计算机科学系助理教授吴佳俊。

图片

吴佳俊的研究方向为计算机视觉机器学习和计算认知科学。加入斯坦福大学之前,曾是谷歌研究院的访问研究员,并分别在清华大学和麻省理工学院获得了学士和博士学位。他的研究曾获 ACM 博士学位论文荣誉提名奖、AAAI/ACM SIGAI 博士学位论文奖、麻省理工学院 George M. Sprowls 人工智能与决策博士学位论文奖,以及 2020 年三星人工智能年度研究人员奖。

在书籍的推荐序言中,斯坦福大学红杉讲席教授,美国国家工程院、国家医学院、艺术与科学院院士李飞飞表示:「Marr 在《视觉》一书中描述的视觉计算理论的思想,在数十年间主导了计算机视觉的发展。四十年后的今天,我们再读这本书,会发现虽然 Marr 的具体计算理论可能是理想化的,但他对计算理论这一概念的追求,启发了我们找到了物体识别这个新的计算目标,构建了 ImageNet 这样的数据集,并最终影响了今日计算机视觉的发展。」

赠书规则

最后,为了满足读者们的热情,机器之心特别向读者赠送 10 本《视觉》。读者可以根据自己对这一主题的了解,在留言区写下感想,获赞最多的前 10 名读者将获赠此书。未获奖读者可以点击「阅读原文」中的链接,原价 119 元,优惠价 69 元包邮。

69元抢购链接:https://u.jd.com/SLX049f

入门吴佳俊《Vision》视觉计算理论经典著作
2
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
沈向洋人物

微软全球执行副总裁,美国工程院院士。

朱松纯人物

朱松纯是全球著名计算机视觉专家,统计与应用数学家、人工智能专家,现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授,UCLA计算机视觉、认知、学习与自主机器人中心主任。

李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
期待电子书尽快上线!
1
发自内心的敬佩这些助力知识传播的人!
1