机器视觉 | 机器之心

简介

机器视觉（Machine Vision，MV）是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法，通常用于工业领域。机器视觉是一个包含大量技术、软硬件产品、集成系统、动作、方法和专业知识的术语。机器视觉作为一门系统工程学科，与计算机科学的一种形式&计算机视觉是截然不同的。它试图以新的方式整合现有技术，并将其应用于解决现实世界中的问题。该术语是工业自动化环境中这些功能的常用术语，但也用于安全和车辆导航等其他环境中的这些功能。

整个机器视觉过程包括规划需求和项目的细节，然后创建解决方案。

运行步骤：先图像成像，图像的自动分析和所需信息的提取。

自动检查操作序列中的第一步是通常使用相机、镜头和照明获取图像，这也会根据后续处理进行区分。MV软件包和开发的程序会基于它们进行开发。然后使用各种数字图像处理技术来提取所需的信息，并且通常基于提取的信息做出决策（例如通过/失败）。

设备

自动检测系统的部件通常包括照明、照相机或其它成像器、处理器、软件和输出设备。

成像

成像设备（例如，照相机）可以与图像处理单元分离，也可以与其组合使用。在这种情况下，组合操作设备通常称为智能照相机或智能传感器。当成像设备和处理单元分离时，可以使用模拟或标准化数字接口（照相机链路、电缆）与计算机内的专用中间硬件、自定义处理设备或帧抓取器进行连接。MV实现还使用能够经由Firewire、USB或千兆位以太网接口直接连接到计算机的数码相机（没有帧抓取器）。

虽然常规（2D可见光）成像最常用于MV，但替代方案包括多光谱成像，高光谱成像，成像各种红外波段，线扫描成像，表面3D成像和X射线成像等。MV 2D可见光成像中的关键差异是单色与彩色，帧速率，分辨率以及成像过程是否在整个图像上同时进行，使其适合于移动过程。

尽管绝大多数机器视觉应用都是使用二维成像解决的，但利用3D成像的机器视觉应用在行业中正在成为一个不断增长的领域。最常用的3D成像方法是基于扫描的三角测量，其在成像过程中利用产品或图像的运动。将激光投射到物体的表面上并从不同的角度进行观察。在机器视觉中，这可以通过移动相机和激光成像系统进行扫描运动来完成。摄像机从不同的角度观看该线;线的偏差表示形状变化。来自多次扫描的线被组合成深度图或点云。立体视觉用于特殊情况，它一般是使用一对摄像机两个视图中的独特特征（2014，Fred Turek & Kim Jackson ）。用于机器视觉的其他3D方法是飞行时间和基于网格（Murray, Charles J, 2012. "3D Machine Vison Comes into Focus".）。一种方法是基于网格阵列的系统，其使用大约2012年的Microsoft Kinect系统所采用的伪随机结构光系统。

图像处理：

获取图像后，需要对其进行处理。处理的多个阶段通常用于以期望结果结束的序列中。典型的序列可以从诸如修改图像的过滤器之类的工具开始，接着是对象的提取，然后是从那些对象中提取（例如，测量、读取代码）数据，接着是传送该数据，或者将其与目标值进行比较以创建和传送“通过/失败”结果。机器视觉图像处理方法包括:

拼接/配准（Stitching/Registration）:相邻2D或3D图像的组合。
过滤（例如形态过滤）
阈值:阈值从设置或确定一个灰度值开始，该灰度值将用于分隔图像的各个部分，有时还用于根据图像的灰度值是低于还是高于该灰度值将图像的各个部分简单地转换为黑白。
像素计数:计数亮像素或暗像素的数量
分割:把一幅数字图像分割成多个片段，以简化和/或改变图像的表现形式，使之更有意义，更容易分析。
边缘检测:寻找目标边缘
颜色分析:使用颜色识别零件、产品和物品，从颜色中评估质量，并使用颜色分离特征。
斑点检测和提取:检测图像中作为图像地标的连通像素的离散斑点（例如，灰色对象中的黑洞）。
神经网络/深度学习/机器学习处理:加权和自训练多变量决策。大约在2018年，这方面有了很大的扩展，使用深度学习和机器学习来显著扩展机器视觉能力。
模式识别包括模板匹配。查找、匹配和/或计数特定模式。这可以包括对象的位置，该对象可以被旋转、被另一对象部分地隐藏或在大小上变化。
条形码、数据矩阵和“2D条形码”读取
光学字符识别（OCR）:自动读取文本，如序列号
测量/计量学:物体尺寸的测量（例如，以像素、英寸或毫米为单位）
与目标值进行比较（检测是否有瑕疵），以确定“通过/不通过”结果。例如，通过代码或条形码验证，将读取值与存储的目标值进行比较。对于测量，测量值与适当的值和公差进行比较。为了验证字母数字代码，将OCR'd（ optical character recognition ）光学字符识别值与适当值或目标值进行比较。检查瑕疵时，可将测量的瑕疵大小与质量标准允许的最大值进行比较

输出

自动检查系统的常见输出是：通过/未通过这样的决定。这些决定可能反过来触发拒绝失败项目或发出警报的机制。其他常见输出包括机器人引导系统的物体位置和方向信息。此外，输出类型包括数字测量数据，从代码和字符读取的数据，对象的计数和分类，过程或结果的显示，存储的图像，来自自动空间监视MV系统的警报以及过程控制信号。这也包括用户界面，用于集成多组件系统和自动数据交换的接口。

【来源：https://en.wikipedia.org/wiki/Machine_vision 】

发展历史

描述

机器视觉的起源可追溯到20世纪60年代美国学者L.R.罗伯兹对多面体积木世界的图像处理研究，70年代麻省理工学院（MIT）人工智能实验室“机器视觉”课程的开设。到80年代，全球性机器视觉研究热潮开始兴起，出现了一些基于机器视觉的应用系统。90年代以后，随着计算机和半导体技术的飞速发展，机器视觉的理论和应用得到进一步发展。如《Image Processing, Analysis and Machine Vision. 》和1999年Wildes, R. P.等人将机器视觉应用于iris的辨别应用。其中3D printing technologies 打印技术也是其中一个分支。

进入21世纪后，机器视觉技术的发展速度更快，已经大规模地应用于多个领域，如智能制造、智能交通、医疗卫生、安防监控等领域。目前，随着人工智能浪潮的兴起，机器视觉技术正处于不断突破、走向成熟的新阶段。

在中国，机器视觉的研究和应用开始于20世纪90年代。从跟踪国外品牌产品起步，经过二十多年的努力，国内的机器视觉从无到有，从弱到强，不仅理论研究进展迅速，而且已经出现一些颇具竞争力的公司和产品。估计随着国内对机器视觉研究、开发和推广的不断深入，赶上和超越世界水平已不是遥不可及的事情了。

常见机器视觉系统主要可分为两类，一类是基于计算机的，如工控机或PC，另一类是更加紧凑的嵌入式设备。典型的基于工控机的机器视觉系统主要包括：光学系统，摄像机和工控机（包含图像采集、图像处理和分析、控制/通信）等单元。机器视觉系统对核心的图像处理要求算法准确、快捷和稳定，同时还要求系统的实现成本低，升级换代方便。2003年，Tsai, R. Y.提出使用现成电视摄像机和镜头的高精度3D机器视觉计量的多功能摄像机校准技术。2009年，第一台3d打印机被制造出来。之后，为了让3d打印技术应用更加广泛，很多工作都投入了研究，如2015年，Sitthi-Amorn, P.,等人提出一个支持3d打印的机器视觉系统。

【来源：智能图像处理如何实现机器视觉及其应用的高效智能？】

阿里云ET城市大脑所要解决的世界级难题，正在催生出一系列世界级的技术。2018年1月，全球权威机器视觉算法排行榜KITTI刷新了排名，阿里巴巴人工智能研究机构iDST夺得行人检测单项冠军。于此同时，在知名的行人再识别数据集Market1501中，他们也取得重大突破，首位命中率提升至96.17%，位居世界第一。

全球机器视觉市场预期于2022年底将达154.6亿美元，2017年至2022年预测期内复合年增长率为8.18%。机器视觉市场在各个地区都呈现正增长。应用领域逐年扩大，技术和集成的进步正在推动全球规模的市场。亚太地区占据着全球市场的主导地位，超过30%的市场份额，其次是欧洲，由于汽车和医疗保健行业的巨大需求，亚太地区成为第二大市场。北美是第三大市场。

【来源：https://en.wikipedia.org/wiki/Machine_vision 】

主要事件

年份	事件	相关论文/Reference
1993	Sonka, M., Hlavac, V., & Ceng, R. B. D. M.对机器视觉的分析进行描述	Sonka, M., Hlavac, V., & Ceng, R. B. D. M. (1993). Image Processing, Analysis and Machine Vision. Image processing, analysis, and machine vision.
1996	Wildes, R. P.等人将机器视觉应用于iris的辨别应用	Wildes, R. P., Asmuth, J. C., Green, G. L., Hsu, S. C., Kolczynski, R. J., & Matey, J. R., et al. (1996). A machine-vision system for iris recognition. Machine Vision & Applications, 9(1), 1-8.
2003	Tsai, R. Y.提出使用现成电视摄像机和镜头的高精度3D机器视觉计量的多功能摄像机校准技术	Tsai, R. Y. (2003). A versatile camera calibration technique for high-accuracy 3d machine vision metrology using off-the-shelf tv cameras and lenses. IEEE Journal on Robotics & Automation, 3(4), 323-344.
2009	Ulrich, M.,等人使用突变进行3d物体的识别	Ulrich, M., Wiedemann, C., & Steger, C. (2009, May). CAD-based recognition of 3D objects in monocular images. In ICRA(Vol. 9, pp. 1191-1198).
2015	Sitthi-Amorn, P.,等人提出一个支持3d打印的机器视觉系统	Sitthi-Amorn, P., Ramos, J. E., Wangy, Y., Kwan, J., Lan, J., Wang, W., & Matusik, W. (2015). MultiFab: a machine vision assisted platform for multi-material 3D printing. ACM Transactions on Graphics (TOG), 34(4), 129.

发展分析

瓶颈

在机器视觉的智能图像处理技术的发展中，还存在不少技术瓶颈，如：

稳定性：某种处理方法往往在研究和开发中表现良好，但在复杂多变的应用环境中，却不时地出现问题。例如人脸识别系统，在目标配合时识别率可高达95%以上，但在实际监控环境下，识别率就会大大下降。

实时性：如果图像的采集速度、处理速度较慢，再加上新近引入的深度学习类算法，加大了系统实时处理的难度，跟不上机器运行和控制的节奏。

准确性：机器视觉系统要求图像识别和测量的准确性接近100%，任何微小的误差都有可能带来不可预测的后果。例如目标定位的误差会使装配出来的设备不符合要求。

系统能力：目前的嵌入式图像处理系统，存在芯片的计算能力不足，存储空间有限等问题，常常不能满足运算量较大的图像处理运算，如神经网络的迭代运算，大规模矩阵运算等。

【来源：智能图像处理如何实现机器视觉及其应用的高效智能？】

未来发展方向

今后机器视觉中智能图像处理的发展主要体现在以下几个方面：

算法：传统算法继续不断有所突破，新一波人工智能浪潮带来不少新的性能优良的图像处理算法，如深度学习（DL），卷积神经网络（CNN），生成对抗网络（GAN），等等。

实时性：出现更多结构新颖、资源充足、运算快速的硬件平台支撑，例如基于多CPU、多GPU的并行处理结构的计算机，海量存储单元等。

嵌入式：新的高速的信号处理器阵列，超大规模FPGA芯片。

融合处理：从单图像传感器发展到多传感器（多视点）的融合处理，可更加充分地获取现场信息。还可融合多类传感器，如图像传感器、声音传感器、温度传感器等共同完对现场目标定位、识别和测量。

总之，无论是“中国制造2025”还是“工业4.0”都离不开人工智能，离不开计算机视觉，而智能图像处理是机器视觉的核心技术，随着图像处理水平的不断提高，一定会有力地推动机器视觉的迅速发展。

【来源：智能图像处理如何实现机器视觉及其应用的高效智能？】

Contributor: Ruiying Cai

简介