计算机视觉 | 机器之心

简介

计算机视觉（CV）是指机器感知环境的能力，是关于研究机器视觉能力的学科，或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估，英国机器视觉协会（BMVA）将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。

对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说，是视觉线索通过视觉神经传输到主视觉皮层，然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验，即进化如何令我们生存下来，以及我们如何在一生中对世界进行学习和理解。

从这方面来说，视觉过程仅仅是传输图像并进行解释的过程，然而从计算的角度看，图像其实更接近思想或认知，涉及大脑的大量功能。因此，由于跨领域特性很显著，很多人认为计算机视觉是对视觉环境和其中语境的真实理解，并将引领我们实现强人工智能。

这一技术类别中的经典任务有图像生成、图像处理、图像提取和图像的三维推理。目标识别——即如字面所说的检测图像中包含的物体或目标。ILSVRC 2016对目标检测的定义为输出单个物体或对象的边界框与标签。这与分类/定位任务不同，目标检测将分类和定位技术应用到一张图像的多个目标而不是一个主要的目标——和目标追踪——即在给定的场景中追踪感兴趣的一个或多个特定目标的过程，在视频和现实世界的交互中（通常是从追踪初始的目标检测开始的）有很多应用，且对于自动驾驶而言非常重要——也是很重要的研究领域。还有一个基础的计算机视觉任务是分类/定位——图像分类任务通常是指为整张图像分配特定的标签而定位是指找到识别目标在图像中出现的位置，通常这种位置信息将由对象周围的一些边界框表示出来。目前ImageNet上的分类/定位的准确度已经超过了一组训练有素的人类。

[描述来源：计算机视觉这一年：这是最全的一份CV技术报告|机器之心]

对计算机视觉领域影响最大的技术之一就是卷积神经网络（CNN）的发展，从2012年的AlexNet，到YOLO、ResNet、VGGNet、GAN，都不断在对目前的技术进行突破。另一些传统的经典算法则有隐马尔科夫模型（HMM）、主动形状模型（ASM）、支持向量机（SVM）、Adaboost、主成分分析（PCA）、粒子滤波器(particle filter)等。

发展历史

计算机视觉的起源可以追溯到1959年Hubel和Wiesel对猫进行的实验，1963奶奶，计算机视觉领域的先驱Larry Roberts 在他的博士论文中试图提取「积木世界（Block World）」的3D 几何信息。而后David Marr的《视觉》一书中提出了以“层”的方式看待图像的思想影响和激励了一代计算机视觉领域的研究人员。1980s以来，OCR技术开始在工业应用中得到使用。1990年LeCun等学者提出的LeNet-5将使用反向传播算法训练的卷积神经网络结合到读取“手写”数字上，并取得了巨大的成功。1998年到2010年这段期间，由于计算机的计算能力不足等因素，神经网络的发展不如预期，计算机视觉领域的主流技术是传统的边缘检测、角点检测、对象检测等等。2001年，Viola 和Jones 开始了面部检测研究；计算机视觉的研究重心发生转移，从建模物体的3D 形状转向了识别物体是什么，这也是AdaBoost算法应用在物体识别领域的实例。随后的几年，L Fei-Fei等学者建立了ImageNet，并从2009年起逐年举办竞赛。而该领域技术的飞速增长与爆发始于2012年以来，基于神经网络的AlexNet技术子物体识别ImageNet竞赛中获胜，计算机视觉领域开始不断取得新的突破。目前计算机视觉领域的顶尖技术已经在不断向人类表现逼近，或对神经网络的学习机制、性能、安全性进行了更深入地讨论。如Christian Szegedy等人提出的对抗样本开启了关于神经网络等机器学习模型安全性的讨论，并推动了生成对抗网络（GAN）的发展；2018年加拿大约克大学、Ryerson大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法，其参考了人类感知动态纹理画面的双路径模式。

年份	事件	相关论文/Reference
1959	Hubel 和Wiesel 对猫进行了实验（为了研究视觉的工作方式）	Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat's striate cortex. The Journal of physiology, 148(3), 574-591.
1963	计算机视觉领域的先驱Larry Roberts 在他的博士论文中试图提取「积木世界（Block World）」的3D 几何信息	Roberts, L. S. (1963).ERGASILUS NERKAE N. SP. (COPEPODA: CYCLOPOIDA) FROM BRITISH COLUMBIA WITH A DISCUSSION OF THE COPEPODS OF THE E. CAERULEUS GROUP.Journal of Zoology, 41:115-124.
1966	Summer Vision 项目启动，人们普遍认为这就意味着计算机视觉的诞生	Papert, S. A. (1966). The summer vision project.
1982	David Marr 的《视觉（Vision）》一书影响和激励了这一领域的一代研究者，该书暗示了以「层」的方式看待图像的思想	Marr, D., & Vision, A. (1982). A computational investigation into the human representation and processing of visual information. WH San Francisco: Freeman and Company, 1(2).
20世纪80年代	光学字符识别（OCR）技术开始在工业应用中使用	Tanaka H.; Hirakawa Y.; Kaneku S. (1982). Recognition of distorted patterns using Viterbi algorithm. IEEE T. Pattern Anal. Mach. lntell. 4, 18-25.//Shildhar M.; Badreldin A.(1985). A high accuracy syntactic recognition algorithm for handwritten numerals, IEEE T. Syst. Man Cyb. 15.//Tampi K.R.; Chetlur S. S. (1986). Segmentation of handwritten characters, Proc. 8th Int. J. Conf. Pattern Recognition. pp684-686.
1990	神经网络技术（CNN）开始被用于手写识别	LeCun, Y., Boser, B. E., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. E., & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems (pp. 396-404).
2001	Viola 和Jones 开始了面部检测研究；计算机视觉的研究重心发生转移，从建模物体的 3D 形状转向了识别物体是什么	Viola, P., & Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. In Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on (Vol. 1, pp. I-I). IEEE.
2009	ImageNet 建立	Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on (pp. 248-255). IEEE.
2012	AlexNet 在ImageNet 竞赛中获胜	Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
2014	Christian Szegedy等人提出了对抗样本（Adversarial Examples）这个概念	Szegedy, C.; Zaremba, W. (2014).Intriguing properties of neural networks.arXiv:1312.6199v4.
2018	加拿大约克大学、Ryerson 大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法，其参考了人类感知动态纹理画面的双路径模式。	Tesfaldet, M.; Brubaker, M. A.; Derpanis, K. G. (2018).Two-Stream Convolutional Networks for Dynamic Texture Synthesis.arXiv:1706.06982.

发展分析

瓶颈

·由于计算机视觉的本质特性，计算机视觉任务所需的数据量通常比其它类型的任务大。

·与人类水平相比，机器仍然很难处理没有多少细节的模糊的属性提取和识别。

未来发展方向

·one-shot 学习和zero-shot 学习的发展可能会帮助计算机视觉领域取得显著的进步，从而能在没有大数据的情况下也能执行任务。

·根据识别出来的物体或人来确定场景背后的含义是计算机视觉的一个发展方向。

·未来肯定会将计算机视觉集成到机器人（比如自动驾驶汽车、SLAM 技术），甚至整合到人类的身体上。

Contributor：Yuanyuan Li, Mos Zhang

简介