Kejin Jin作者Haojin Yang编辑

中科院自动化所:用于多方向场景文本检测的深度直接回归

很多通常的场景图像都带有文本,这些文本能为场景图像的理解提供帮助。但这些图像中的文本通常都有不同的尺寸和方向,这会给场景图像中的文本检测带来一些麻烦。为了解决这一问题,中国科学院自动化研究所模式识别国家重点实验室(NLPR)的研究者提出了“用于多方向场景文本检测的深度直接回归”。机器之心对该研究的论文进行了解读。

论文链接:https://arxiv.org/pdf/1703.08289.pdf

1、引言

文本检测是确定自然图像中是否存在文本,如果存在,再确定每个文本实例的位置的过程。图像中的文本能提供丰富且精确的高层面语义信息,这对多种潜在应用而言都很重要,比如场景理解,图像和视频检索以及基于内容的推荐系统。因此,场景文本检测已经引起了来自计算机视觉机器学习社区的极大兴趣。近些年中,用于通用目标检测的基于深度卷积神经网络(CNN)的方法(比如 Faster-RCNN、SSD 和 YOLO)已被提出并且可以实现当前最佳的表现。基于这些方法,通过将文本词或文本行当作目标(object)处理,场景文本检测的表现也得到了极大提升。但是,对于多方向文本检测(multi-oriented text detection)而言,Faster-RCNN 和 SSD 等对目标检测或水平方向文本检测效果良好的方法可能并非好选择。

这篇论文首先提供了一个新角度,将已有的表现好的目标检测方法分成了直接回归和间接回归方法。直接回归是通过预测与一个给定点的偏移量来执行边界回归(见图 1.b),而间接回归是预测某个边界框提议的偏移量(见图 1.a)。然后,这篇论文分析了间接回归的缺点,之后又分析了 Faster-RCNN 和 SSD 等用于多方向场景文本检测的当前最佳检测结构,并且指出了直接回归的潜在优越性。为了验证这一观点,该论文提出了一种基于深度直接回归的多方向场景文本检测方法。这个检测框架使用了一个全卷积网络和一步后处理(post processing),是简单且有效的。其中全卷积网络是以端到端的方式优化的,而且有两个任务输出——一个是像素级的文本与非文本分类,另一个是确定四边形文本边界的顶点坐标的直接回归。该论文所提出的方法尤其有益于定位附带性的场景文本。在 ICDAR2015 Incidental Scene Text 基准上,该方法实现了 81% 的 F1-measure。在其它具有聚焦场景文本的标准数据集上,该方法也表现优良。

图 1:间接回归和直接回归的可视化解释。(a)间接回归是预测与一个提议的偏移量,(b)直接回归是预测与一个点的偏移量。

2.理论角度

图 2 给出了该论文所提出的检测系统图示。其包含 4 个主要部分:前 3 个模块是网络部分(卷积特征提取、多级特征融合和多任务学习),另外还有一个执行后处理的改进过的 NMS(非极大抑制)算法。

图 2:该论文所提出的文本检测方法概览

图 3 给出了该方法的完整网络结构。给定尺寸为 m*n 的输入图像,其会经历卷积特征提取和下采样过程,然后是 3 个特征融合过程(类似于 ResNet 方法 [2])。在每次融合之后,会执行去卷积操作。最后,我们得到 m/4*n/4*128 的输出特征。

下一个部分是多任务学习,其由两个子任务构成:分类任务和回归任务。一方面,上述过程所创造的输出会被馈送进分类模块。分类任务 M_cls 的输出是一个 m/4*n/4 的二阶张量。该张量中的元素表示一个分数。这个分数越高,则这个位置就越有可能存在文本,否则就不是文本。另一方面,上述输出特征是回归模块的输入,回归任务 M_loc 的输出是一个 m/4*n/4*8 的三阶张量。这里的通道大小说明我们需要获取文本边界四边形的四个顶点的坐标。在索引 (w,h,c) 中的三阶张量 M_loc 的值被表达为 M_(w,h.c),表示四边形顶点坐标与输入图像 (4w,4h) 的中点的偏移量。因此,当被映射到原始输入图像上时,在回归任务中所获得的文本边界四边形坐标需要被延展 4 倍,并且可表示为 B(w,h):

通过结合分类任务与回归任务,这种网络模型可以预测特征图 m/4*n/4 中每个点的四边形坐标和分类分数。其网络结构和参数配置的细节见图 3。

图 3:网络结构

损失函数

该网络的多任务损失函数 L 可以表示为:

其中,L_cls 和 L_loc 分别表示分类任务和回归任务的损失。这两个损失之间的平衡由超参数 ρ_loc 控制。

在分类任务中,对于基本真值(ground truth)的选取,该论文没有使用文本区域中的所有像素作为正例像素,而是使用了离文本行中心小于一定距离的像素。该论文将距离 r 设定为 0.2,且其正比于文本边界的短边。此外,正例的文本边界的短边被限制在了 [32*2^-1,32*2^1] 区间。也就是说,如果短边的范围在 [32*2^-1.5,32*2^-1) ∪ (32*2^1,32*2^1.5] 之中(称为 NOT CARE 区域),那么该文本是负例。负例围绕在正例周围,NOT CARE 区域的像素可被看作是正例和负例之间的过渡边界。NOT CARE 区域不参与训练过程。该论文认为这种基本真值设计能让文本区域和非文本区域之间的边界更清晰。

分类任务所用的损失函数是 Hinge Loss,如下所示,其中 sign(x) 是一个符号函数。当 y^ 等于 y* 时(比如,都为 1 或 0),则该平方项为 0——即没有损失;如果不相等,则平方结果为 1。

在回归任务中,基本真值分布在一个更大的取值范围中,且该网络的 sigmoid 层的输出是在 {0,1} 范围中,因此 Scale & Shift 模块被加入到了网络中。该网络的输出也由此被控制在了 [-400, 400] 范围内。该模块的函数为:

根据 [3],回归任务中的损失函数 L_loc 定义如下。给定一个像素,其真实值表示为 z*,其预测值表示为 z^。

非极大抑制

多任务学习之后(分类和回归),输出特征向量 (m/4*n/4) 的每个点都对应于一个四边形框。分类任务的输出特征向量会保留每个四边形框的分数。另一方面,回归任务的输出特征向量会保留每个四边形框的四个点的坐标的偏移量。为了过滤掉某些非文本区域,这篇论文只保留了在分类后分数更高的点。但即便如此,也仍存在一些密集的重叠四边形,这需要使用 Recalled NMS 移除。

Recalled NMS 分为三个步骤:第一步是使用传统的 NMS 算法来获得结果。这些结果的主要问题是,当两个文本彼此之间非常靠近时,会有一些框穿过这个两个文本,这是不正确的。在第二步,在第一步中获得的每个文本框都会被切换成未经 NMS 处理的文本框,而且有最高的分数且大于某个阈值。第三步是融合在第二步得到的框,因为这时候文本之间的重叠度相对较高,而在第一步(NMS 过程)获得的有更高重叠率的框已经被移除了。

图 4 展示了这三个步骤。

图 4:Recalled NMS 的三个步骤。左:传统 NMS 的结果(红色的四边形是误警)。中:回调的高分数四边形。右:根据接近程度融合结果。

3、实验

该论文所提出的方法在三个数据集上进行了评估:ICDAR2015 Incidental Scene Text、MSRA-TD500 和 ICDAR2013。这三个数据集都包含训练图像、测试图像和标注。ICDAR2015 数据集包含不同尺寸、分辨率、模糊程度、方向和视角的文本,而 ICDAR2013 中的文本都有很高的分辨率且很清晰。此外,ICDAR2015 和 MSRA-TD500 数据集有多方向文本,而另一个数据集的文本大都是水平方向的。

实验遵循了数据集创建者或竞赛组织者所提供的标准评估协议。所使用的三个评估指标为精度、召回率和 F-measure。一般而言,这些指标的值越大,实验算法就越好。

网络使用反向传播通过随机梯度下降(SGD)进行了优化,在来自 ICDAR2013 和 ICDAR2015 的训练数据集以及收集自互联网的 200 个负例图像(没有文本的场景图像)上进行了训练。

实验结果在以下表格中给出。表 1 中的结果表明,在精度和召回率上,这里提出的方法在 ICDAR2015 Incidental Scene Text 数据集上的表现都显著优于之前的方法。但是,表 2 和表 3 中在 MSRA-TD500 数据集和 ICDAR2013 Focused Scene Text 数据集上得到的评估结果却表明这里提出的方法并没有太大优势。我们可以得出结论:这里所提出的方法确实对多方向文本检测效果很好,因为 ICDAR2015 数据集主要是多方向文本。此外,除了精度、召回率和 F-measure,表 3 还列出了每种方法在每张图像上的时间成本。

表 1:各种方法在 ICDAR2015 Incidental Scene Text 数据集上的比较

表 2:各种方法在 MSRA-TD500 数据集上的比较


表 3:各种方法在 ICDAR2013 Focused Scene Text数据集上的比较

下面给出了一些检测示例:


图 5:所提出的模型在 ICDAR2015 Incidental Scene Text 基准上的检测示例

图 6:所提出的模型在 MSRA-TD500 上的检测示例图 7:所提出的模型在 ICDAR2013 上的检测示例

4、总结

这篇论文首先将已有的目标检测框架划分成了基于直接回归的方法和基于间接回归的方法,并分析了这两种方法在不规则形状的目标检测上的优缺点。然后,论文提出了一种用于多方向场景文本检测的基于直接回归的全新方法。这种检测框架简单直接又很有效,仅有一个后处理步骤。此外,其在场景附带的文本的检测上表现尤其好。所提出的方法在 ICDAR2015 Incidental Scene Text 基准上取得了优良的表现。除此之外,这篇论文还分析了其表现优良的原因,并将所提出的方法与其它近期的场景文本检测系统进行了比较。

参考文献

[1]D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014. 1, 3

[2]H.Chen,S.S.Tsai,G.Schroth,D.M.Chen,R.Grzeszczuk, and B. Girod. Robust text detection in natural images with edge-enhanced maximally stable extremal regions. In Proceedings of the 18th IEEE International Conference on Image Processing, pages 2609–2612. IEEE, 2011. 2

[3]R. Girshick. Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision, pages 1440–1448, 2015. 1, 3, 4

理论
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

卷积技术

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

基于内容的推荐系统技术

基于内容推荐系统是主要的推荐系统类型之一,其推荐功能是基于对内容的描述和用户偏好信息。它尝试推荐给用户的内容是跟用户过去喜欢的内容的相似度相关联的。因此,推荐的内容就是通过找到与用户历史偏好内容最匹配的内容。 基于内容推荐系统主要包括三部分内容: 内容分析(Content Analyzer): 通过从无结构化的数据提取,整合一些特征来结构化数据。 (如词在关于电影的数据中将每一个电影作为向量表示);Profile Learning(用户信息学习),通过对用户历史偏好的内容向量以加权的方式来表示用户的信息。一般通过使用机器学习模型(如贝叶斯分类器,神经网络等)推断用户对潜在的新内容的偏好概率;Filtering Component(过滤组件),通过匹配用户信息与推荐的item属性。

多任务学习技术

推荐文章
暂无评论
暂无评论~