计算机视觉

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源:机器之心
简介

计算机视觉(CV)是指机器感知环境的能力,是关于研究机器视觉能力的学科,或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估,英国机器视觉协会(BMVA)将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。

对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说,是视觉线索通过视觉神经传输到主视觉皮层,然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验,即进化如何令我们生存下来,以及我们如何在一生中对世界进行学习和理解。

从这方面来说,视觉过程仅仅是传输图像并进行解释的过程,然而从计算的角度看,图像其实更接近思想或认知,涉及大脑的大量功能。因此,由于跨领域特性很显著,很多人认为计算机视觉是对视觉环境和其中语境的真实理解,并将引领我们实现强人工智能。

这一技术类别中的经典任务有图像生成图像处理图像提取图像的三维推理目标识别——即如字面所说的检测图像中包含的物体或目标。ILSVRC 2016对目标检测的定义为输出单个物体或对象的边界框与标签。这与分类/定位任务不同,目标检测将分类和定位技术应用到一张图像的多个目标而不是一个主要的目标——目标追踪——即在给定的场景中追踪感兴趣的一个或多个特定目标的过程,在视频和现实世界的交互中(通常是从追踪初始的目标检测开始的)有很多应用,且对于自动驾驶而言非常重要——也是很重要的研究领域。还有一个基础的计算机视觉任务是分类/定位——图像分类任务通常是指为整张图像分配特定的标签而定位是指找到识别目标在图像中出现的位置,通常这种位置信息将由对象周围的一些边界框表示出来。目前ImageNet上的分类/定位的准确度已经超过了一组训练有素的人类。

[描述来源:计算机视觉这一年:这是最全的一份CV技术报告|机器之心]

对计算机视觉领域影响最大的技术之一就是卷积神经网络(CNN)的发展,从2012年的AlexNet,到YOLO、ResNet、VGGNet、GAN,都不断在对目前的技术进行突破。另一些传统的经典算法则有隐马尔科夫模型(HMM)、主动形状模型(ASM)、支持向量机(SVM)、Adaboost、主成分分析(PCA)、粒子滤波器(particle filter)等。

发展历史

计算机视觉的起源可以追溯到1959年Hubel和Wiesel对猫进行的实验,1963奶奶,计算机视觉领域的先驱Larry Roberts 在他的博士论文中试图提取「积木世界(Block World)」的3D 几何信息。而后David Marr的《视觉》一书中提出了以“层”的方式看待图像的思想影响和激励了一代计算机视觉领域的研究人员。1980s以来,OCR技术开始在工业应用中得到使用。1990年LeCun等学者提出的LeNet-5将使用反向传播算法训练的卷积神经网络结合到读取“手写”数字上,并取得了巨大的成功。1998年到2010年这段期间,由于计算机的计算能力不足等因素,神经网络的发展不如预期,计算机视觉领域的主流技术是传统的边缘检测、角点检测、对象检测等等。2001年,Viola 和Jones 开始了面部检测研究;计算机视觉的研究重心发生转移,从建模物体的3D 形状转向了识别物体是什么,这也是AdaBoost算法应用在物体识别领域的实例。随后的几年,L Fei-Fei等学者建立了ImageNet,并从2009年起逐年举办竞赛。而该领域技术的飞速增长与爆发始于2012年以来,基于神经网络的AlexNet技术子物体识别ImageNet竞赛中获胜,计算机视觉领域开始不断取得新的突破。目前计算机视觉领域的顶尖技术已经在不断向人类表现逼近,或对神经网络的学习机制、性能、安全性进行了更深入地讨论。如Christian Szegedy等人提出的对抗样本开启了关于神经网络等机器学习模型安全性的讨论,并推动了生成对抗网络(GAN)的发展;2018年加拿大约克大学、Ryerson大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法,其参考了人类感知动态纹理画面的双路径模式。

年份

事件

相关论文/Reference

1959

Hubel 和Wiesel 对猫进行了实验(为了研究视觉的工作方式)

Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat's striate cortex. The Journal of physiology, 148(3), 574-591.

1963

计算机视觉领域的先驱Larry Roberts 在他的博士论文中试图提取「积木世界(Block World)」的3D 几何信息

Roberts, L. S. (1963).ERGASILUS NERKAE N. SP. (COPEPODA: CYCLOPOIDA) FROM BRITISH COLUMBIA WITH A DISCUSSION OF THE COPEPODS OF THE E. CAERULEUS GROUP.Journal of Zoology, 41:115-124.

1966

Summer Vision 项目启动,人们普遍认为这就意味着计算机视觉的诞生

Papert, S. A. (1966). The summer vision project.

1982

David Marr 的《视觉(Vision)》一书影响和激励了这一领域的一代研究者,该书暗示了以「层」的方式看待图像的思想

Marr, D., & Vision, A. (1982). A computational investigation into the human representation and processing of visual information. WH San Francisco: Freeman and Company, 1(2).

20世纪80年代

光学字符识别(OCR)技术开始在工业应用中使用

Tanaka H.; Hirakawa Y.; Kaneku S. (1982). Recognition of distorted patterns using Viterbi algorithm. IEEE T. Pattern Anal. Mach. lntell. 4, 18-25.//Shildhar M.; Badreldin A.(1985). A high accuracy syntactic recognition algorithm for handwritten numerals, IEEE T. Syst. Man Cyb. 15.//Tampi K.R.; Chetlur S. S. (1986). Segmentation of handwritten characters, Proc. 8th Int. J. Conf. Pattern Recognition. pp684-686.

1990

神经网络技术(CNN)开始被用于手写识别

LeCun, Y., Boser, B. E., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. E., & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. In *Advances in neural information processing systems* (pp. 396-404).

2001

Viola 和Jones 开始了面部检测研究;计算机视觉的研究重心发生转移,从建模物体的 3D 形状转向了识别物体是什么

Viola, P., & Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. In Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on (Vol. 1, pp. I-I). IEEE.

2009

ImageNet 建立

Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on (pp. 248-255). IEEE.

2012

AlexNet 在ImageNet 竞赛中获胜

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In *Advances in neural information processing systems* (pp. 1097-1105).

2014

Christian Szegedy等人提出了对抗样本(Adversarial Examples)这个概念

Szegedy, C.; Zaremba, W. (2014).Intriguing properties of neural networks.arXiv:1312.6199v4.

2018

加拿大约克大学、Ryerson 大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法,其参考了人类感知动态纹理画面的双路径模式。

Tesfaldet, M.; Brubaker, M. A.; Derpanis, K. G. (2018).Two-Stream Convolutional Networks for Dynamic Texture Synthesis.arXiv:1706.06982.

发展分析

瓶颈

·由于计算机视觉的本质特性,计算机视觉任务所需的数据量通常比其它类型的任务大。

·与人类水平相比,机器仍然很难处理没有多少细节的模糊的属性提取和识别。

未来发展方向

·one-shot 学习和zero-shot 学习的发展可能会帮助计算机视觉领域取得显著的进步,从而能在没有大数据的情况下也能执行任务。

·根据识别出来的物体或人来确定场景背后的含义是计算机视觉的一个发展方向。

·未来肯定会将计算机视觉集成到机器人(比如自动驾驶汽车、SLAM 技术),甚至整合到人类的身体上。

Contributor:Yuanyuan Li, Mos Zhang

相关人物
杨立昆
杨立昆
杨立昆(法语:Yann Le Cun,英语:Yann LeCun,1960年7月8日-)是一位计算机科学家,他在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献。他最著名的工作是在光学字符识别和计算机视觉上使用卷积神经网络 (CNN),他也被称为卷积网络之父。他同Léon Bottou和Patrick Haffner等人一起创建了DjVu图像压缩技术。他同Léon Bottou一起开发了Lush语言。
约书亚·本吉奥
约书亚·本吉奥
约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。
托斯坦·尼尔斯·威泽尔
托斯坦·尼尔斯·威泽尔
托斯坦·尼尔斯·威泽尔(瑞典语:Torsten Nils Wiesel,1924年6月3日-),瑞典神经科学家,与大卫·休伯尔(David H. Hubel)由于对视觉系统的讯息处理过程之研究,而和研究左右脑半球的罗杰·斯佩里(Roger W. Sperry)共同获得1981年的诺贝尔生理学或医学奖。
Alex Krizhevsky
Alex Krizhevsky
大卫·休伯尔
大卫·休伯尔
大卫·休伯尔(英语:David Hunter Hubel,1926年2月27日-2013年9月22日),加拿大-美籍神经科学家,生前任哈佛大学神经生物学教授,与合作者托斯坦·威泽尔(Torsten N. Wiesel)由于对视觉系统中视觉信息处理的研究的贡献,而与另一团队的科学家罗杰·斯佩里(Roger W. Sperry)共同获得1981年诺贝尔生理学或医学奖。 1978年,休伯尔获得哥伦比亚大学授予的路易莎·格罗斯·霍维茨奖。
李佳
李佳
李佳,此前曾任谷歌云机器学习/人工智能研发负责人(Head of R&D, AI/ML, Senior Director at Cloud,Google)。本科毕业于中国科大自动化系。新加坡南洋理工大学硕士。在伊利诺伊大学香槟分校、普林斯顿大学与斯坦福大学跟随李飞飞从事计算机视觉研究。2011 年获斯坦福大学计算机科学博士。曾在谷歌实习,2011 年加入雅虎,2014 年成为雅虎资深研究员,开始领导雅虎实验室的视觉计算和机器学习部门。2015 年 2 月,Snapchat 聘请李佳担任公司研发主管。2016 年加入谷歌。2018年11月从谷歌离职,全职参与斯坦福医学院智能医院项目。
黎越国
黎越国
人工智能学者,博士毕业于斯坦福大学。自2013年以来于谷歌任研究科学家。
Christian Szegedy
Christian Szegedy
拉里·罗伯茨
拉里·罗伯茨
拉里·罗伯茨(Larry Roberts)在1937年12月出生于美国康涅狄格州西港,父母Elliott和Elizabeth Roberts都是耶鲁大学的化学博士,罗伯茨从小就是一个浑身充斥着天才光辉的学霸,据说他能在10分钟以内把一本精装书通读并且说出书中要点和旨意。拥有超高智商的罗伯茨有着很好的组织管理能力,在软件设计、电脑绘图以及通讯技术方面也都获得了非凡的成就。
李飞飞
李飞飞
李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。
Michael Jones
Michael Jones
杰弗里·辛顿
杰弗里·辛顿
杰弗里·埃弗里斯特·辛顿 FRS(英语:Geoffrey Everest Hinton)(1947年12月6日-)是一位英国出生的加拿大计算机学家和心理学家,以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者。
简介
相关人物