图像分割

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

来源:百度百科
简介

图像分割是图像处理和计算机视觉的热点之一。它也是图像识别的重要基础。图像分割是根据图像内容对指定区域进行标记的计算机视觉任务,它基于某些标准将输入图像划分为多个相同的类别,简言之就是「这张图片里有什么,其在图片中的位置是什么?」以便提取人们感兴趣的区域。它是图像分析和理解图像特征提取和识别的基础。

一般来说,用于图像分割的算法主要有五类:

第一种是阈值分割方法( threshold segmentation method)。阈值分割是基于区域的分割算法中最常用的分割技术之一,其实质是根据一定的标准自动确定最佳阈值,并根据灰度级使用这些像素来实现聚类。

其次是区域增长细分( regional growth segmentation)。区域增长算法的基本思想是将具有相似属性的像素组合以形成区域,即,首先划分每个区域以找到种子像素作为生长点,然后将周围邻域与相似属性合并其区域中的像素。

第三种是边缘检测分割方法( edge detection segmentation method)。边缘检测分割算法是指利用不同区域的像素灰度或边缘的颜色不连续检测区域,以实现图像分割。

第四种是基于聚类的分割( segmentation based on clustering)。基于聚类的算法是基于事物之间的相似性作为类划分的标准,即根据样本集的内部结构将其划分为若干子类,以使相同类型的类尽可能相似、不同的类型的类尽可能不相似。

最后是基于CNN中弱监督学习的分割。它指的是为图像中的每个像素分配语义标签的问题,又称语义分割。它由三部分组成。 1)给出包含哪些对象的图像。 2)给出一个对象的边框。 3)图像中的对象区域用部分像素标记。

[描述来源:Yuheng, S.; Hao, Y. (2017). Image Segmentation Algorithms Overview. arXiv: 1707.02051.]

发展历史

Jonathan Long, Evan Shelhamer, Trevor Darrell在 2014 年末介绍了使用「全卷积」网络对图像分割的任务进行端到端、像素到像素的训练方法 。这篇论文的作者提出FCN,将现有的、经过充分研究的图像分类网络(如 AlexNet)作为网络的编码模块,用转置卷积层作为解码模块,将粗略的特征图上采样至全分辨率的分割图。FCN主要用来做pixel-wise的image segmentation预测,先用传统的CNN结构得到feature map,同时将传统的full connected转换成了对应参数的卷积层,比如传统pool5层的尺寸是7×7×512,fc6的尺寸是4096,传统的full connected weight是7×7×512×4096这样多的参数,将它转成卷积核,kernel size为7×7,input channel为512,output channel为4096,则将传统的分别带有卷积和全连接的网络转成了全卷积网络(fully convolutional network, FCN)。FCN的一个好处是输入图片尺寸大小可以任意,不受传统网络全连接层尺寸限制,传统的方法还要用类似SPP结构来避免这个问题。FCN中为了得到pixel-wise的prediction,也要把feature map通过deconv转化到像素空间。

2015年,Olaf Ronneberger, Philipp Fischer, and Thomas Brox提出了U-Net,Unet通过产生原始训练数据的扭曲版而增加训练数据。这一步使 CNN 编码器-解码器变得更加鲁棒以抵抗这些形变,并能从更少的训练图像中进行学习。当它在少于 40 张图的生物医学数据集上训练时,IOU 值仍能达到 92%。

2016年,Liang-Chieh Chen等人提出DeepLab,将 CNN 编码器-解码器和 CRF 精炼过程相结合以产生目标标签(如前文所述,作者强调了解码器的上采样)。空洞卷积(也称扩张卷积)在每一层都使用大小不同的卷积核,使每一层都能捕获各种比例的特征。在 Pascal VOC 2012 测试集中,这个架构的平均 IOU 达到了 70.3%。Fisher Yu和Vladlen Koltun则是提出了Dilation10, 这是一种扩张卷积的替代方法。完整流程是将扩张卷积的「前端模块」连接到内容模块上,再用 CRF-RNN 进行下一步处理。通过这样的构造,Dilation10 在 Pascal VOC 2012 测试集上的平均 IOU 值达到了 75.3%。

2018年,YAĞIZ AKSOY等人研究介绍了语义软分割——一组与图像中语义有意义的区域相对应的层,它们在不同对象之间有准确的软过渡。他们利用光谱分割角度来处理这个问题,并提出了一种图结构,其包含图像的纹理和颜色特征以及神经网络生成的高级语义信息。软分割是通过精心构建的拉普拉斯矩阵的特征分解完全自动生成的。

同年,Jun Fu, Jing Liu, Haijie Tian, Zhiwei Fang, Hanqing Lu提出了一种双重注意力网络(DANet)来自适应地将局部特征与其全局依赖关系相结合,主要捕获丰富的语境关联来解决场景分割问题。具体来说,他们在传统的基于空洞卷积的 FCN 上添加了两种注意力模块,分别对空间维度和通道维度的语义相互关联进行建模。位置注意力模块通过所有位置的特征加权总和选择性地聚集每个位置的特征。无论距离远近,相似的特征都会相互关联。同时,通道注意力模块通过整合所有通道图中的相关特征,有选择地强调相互关联的通道图。他们将两个注意力模块的输出相加,以进一步改进特征表示,这有助于获得更精确的分割结果。他们在三个具有挑战性的场景分割数据集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了当时最佳分割性能。特别是,在不使用粗略数据的情况下,在 Cityscapes 测试集的平均 IoU 分数达到了 81.5 %。

另一方面,旷视科技提出一种称之为统一感知解析(Unified Perceptual Parsing/UPP)的新任务,要求机器视觉系统从一张图像中识别出尽可能多的视觉概念。同时,多任务框架 UPerNet 被提出,训练策略被开发以学习混杂标注(heterogeneous annotations)。旷视科技在 UPP 上对 UPerNet 做了基准测试,结果表明其可有效分割大量的图像概念。

主要事件

年份事件相关论文/Reference
2014Jonathan Long, Evan Shelhamer, Trevor Darrell在 2014 年末介绍了使用「全卷积」网络对图像分割的任务进行端到端、像素到像素的训练方法Long, J.; Shelhamer, E.; Darrell, T. (2014). Fully Convolutional Networks for Semantic Segmentation. CVPR.
2015Olaf Ronneberger, Philipp Fischer, and Thomas Brox提出了U-NetRonneberger, O.; Fischer, P.; Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. arXiv:1505.04597v1.
2016Liang-Chieh Chen等人提出DeepLabChen, L.-C. et al. (2016). DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. arXiv:1606.00915v2.
2016Fisher Yu和Vladlen Koltun则是提出了Dilation10Yu, F.; Koltun, V. (2016). MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS. ICLR.
2018Jun Fu, Jing Liu, Haijie Tian, Zhiwei Fang, Hanqing Lu提出了一种双重注意力网络(DANet)来自适应地将局部特征与其全局依赖关系相结合Fu, J. et al. (2018). Dual Attention Network for Scene Segmentation. arXiv:1809.02983v2.
2018YAĞIZ AKSOY等人研究介绍了语义软分割AKSOY, Y. et al. (2018).  Semantic Soft Segmentation. ACM Trans. Graph. 34(4), Article 72.
2018旷视科技提出一种称之为统一感知解析(Unified Perceptual Parsing/UPP)的新任务Xiao, T. et al. (2018). Unified Perceptual Parsing for Scene Understanding. European Conference on Computer Vision (ECCV).

发展分析

瓶颈

目前图像分割主要集中在语义分割,而目前的难点也在于“语义”,表达某一语义的同一物体并不总是以相同的形象出现,如包含不同的颜色、纹理等,这对精确分割带来了很大的挑战。其他的还有深度学习框架下广泛存在的问题:对训练数据的数据量要求高,训练费时等。

未来发展方向

前文已经提到,目前的发展方向是语义分割,包括从图像发展到的视频中的分割,对分割的精确度有很大的要求,以目前的模型表现来看,在准确率上无疑还有提升空间。另外,弱监督甚至无监督训练来解决昂贵的数据标注问题也是一种方向。最后,示例级别(Instance level)的图像分割也是一个热门研究方向。

Contributor: Yuanyuan Li

相关人物
YAĞIZ AKSOY
YAĞIZ AKSOY
Trevor Darrell
Trevor Darrell
Hanqing Lu
Hanqing Lu
简介
相关人物