很多通常的场景图像都带有文本,这些文本能为场景图像的理解提供帮助。但这些图像中的文本通常都有不同的尺寸和方向,这会给场景图像中的文本检测带来一些麻烦。为了解决这一问题,中国科学院自动化研究所模式识别国家重点实验室(NLPR)的研究者提出了“用于多方向场景文本检测的深度直接回归”。机器之心对该研究的论文进行了解读。
论文链接:https://arxiv.org/pdf/1703.08289.pdf
1、引言
文本检测是确定自然图像中是否存在文本,如果存在,再确定每个文本实例的位置的过程。图像中的文本能提供丰富且精确的高层面语义信息,这对多种潜在应用而言都很重要,比如场景理解,图像和视频检索以及基于内容的推荐系统。因此,场景文本检测已经引起了来自计算机视觉和机器学习社区的极大兴趣。近些年中,用于通用目标检测的基于深度卷积神经网络(CNN)的方法(比如 Faster-RCNN、SSD 和 YOLO)已被提出并且可以实现当前最佳的表现。基于这些方法,通过将文本词或文本行当作目标(object)处理,场景文本检测的表现也得到了极大提升。但是,对于多方向文本检测(multi-oriented text detection)而言,Faster-RCNN 和 SSD 等对目标检测或水平方向文本检测效果良好的方法可能并非好选择。
这篇论文首先提供了一个新角度,将已有的表现好的目标检测方法分成了直接回归和间接回归方法。直接回归是通过预测与一个给定点的偏移量来执行边界回归(见图 1.b),而间接回归是预测某个边界框提议的偏移量(见图 1.a)。然后,这篇论文分析了间接回归的缺点,之后又分析了 Faster-RCNN 和 SSD 等用于多方向场景文本检测的当前最佳检测结构,并且指出了直接回归的潜在优越性。为了验证这一观点,该论文提出了一种基于深度直接回归的多方向场景文本检测方法。这个检测框架使用了一个全卷积网络和一步后处理(post processing),是简单且有效的。其中全卷积网络是以端到端的方式优化的,而且有两个任务输出——一个是像素级的文本与非文本分类,另一个是确定四边形文本边界的顶点坐标的直接回归。该论文所提出的方法尤其有益于定位附带性的场景文本。在 ICDAR2015 Incidental Scene Text 基准上,该方法实现了 81% 的 F1-measure。在其它具有聚焦场景文本的标准数据集上,该方法也表现优良。
图 1:间接回归和直接回归的可视化解释。(a)间接回归是预测与一个提议的偏移量,(b)直接回归是预测与一个点的偏移量。
2.理论角度
图 2 给出了该论文所提出的检测系统图示。其包含 4 个主要部分:前 3 个模块是网络部分(卷积特征提取、多级特征融合和多任务学习),另外还有一个执行后处理的改进过的 NMS(非极大抑制)算法。
图 3 给出了该方法的完整网络结构。给定尺寸为 m*n 的输入图像,其会经历卷积特征提取和下采样过程,然后是 3 个特征融合过程(类似于 ResNet 方法 [2])。在每次融合之后,会执行去卷积操作。最后,我们得到 m/4*n/4*128 的输出特征。
下一个部分是多任务学习,其由两个子任务构成:分类任务和回归任务。一方面,上述过程所创造的输出会被馈送进分类模块。分类任务 M_cls 的输出是一个 m/4*n/4 的二阶张量。该张量中的元素表示一个分数。这个分数越高,则这个位置就越有可能存在文本,否则就不是文本。另一方面,上述输出特征是回归模块的输入,回归任务 M_loc 的输出是一个 m/4*n/4*8 的三阶张量。这里的通道大小说明我们需要获取文本边界四边形的四个顶点的坐标。在索引 (w,h,c) 中的三阶张量 M_loc 的值被表达为 M_(w,h.c),表示四边形顶点坐标与输入图像 (4w,4h) 的中点的偏移量。因此,当被映射到原始输入图像上时,在回归任务中所获得的文本边界四边形坐标需要被延展 4 倍,并且可表示为 B(w,h):
通过结合分类任务与回归任务,这种网络模型可以预测特征图 m/4*n/4 中每个点的四边形坐标和分类分数。其网络结构和参数配置的细节见图 3。
损失函数
该网络的多任务损失函数 L 可以表示为:
其中,L_cls 和 L_loc 分别表示分类任务和回归任务的损失。这两个损失之间的平衡由超参数 ρ_loc 控制。
在分类任务中,对于基本真值(ground truth)的选取,该论文没有使用文本区域中的所有像素作为正例像素,而是使用了离文本行中心小于一定距离的像素。该论文将距离 r 设定为 0.2,且其正比于文本边界的短边。此外,正例的文本边界的短边被限制在了 [32*2^-1,32*2^1] 区间。也就是说,如果短边的范围在 [32*2^-1.5,32*2^-1) ∪ (32*2^1,32*2^1.5] 之中(称为 NOT CARE 区域),那么该文本是负例。负例围绕在正例周围,NOT CARE 区域的像素可被看作是正例和负例之间的过渡边界。NOT CARE 区域不参与训练过程。该论文认为这种基本真值设计能让文本区域和非文本区域之间的边界更清晰。
分类任务所用的损失函数是 Hinge Loss,如下所示,其中 sign(x) 是一个符号函数。当 y^ 等于 y* 时(比如,都为 1 或 0),则该平方项为 0——即没有损失;如果不相等,则平方结果为 1。
在回归任务中,基本真值分布在一个更大的取值范围中,且该网络的 sigmoid 层的输出是在 {0,1} 范围中,因此 Scale & Shift 模块被加入到了网络中。该网络的输出也由此被控制在了 [-400, 400] 范围内。该模块的函数为:
根据 [3],回归任务中的损失函数 L_loc 定义如下。给定一个像素,其真实值表示为 z*,其预测值表示为 z^。
非极大抑制
在多任务学习之后(分类和回归),输出特征向量 (m/4*n/4) 的每个点都对应于一个四边形框。分类任务的输出特征向量会保留每个四边形框的分数。另一方面,回归任务的输出特征向量会保留每个四边形框的四个点的坐标的偏移量。为了过滤掉某些非文本区域,这篇论文只保留了在分类后分数更高的点。但即便如此,也仍存在一些密集的重叠四边形,这需要使用 Recalled NMS 移除。
Recalled NMS 分为三个步骤:第一步是使用传统的 NMS 算法来获得结果。这些结果的主要问题是,当两个文本彼此之间非常靠近时,会有一些框穿过这个两个文本,这是不正确的。在第二步,在第一步中获得的每个文本框都会被切换成未经 NMS 处理的文本框,而且有最高的分数且大于某个阈值。第三步是融合在第二步得到的框,因为这时候文本之间的重叠度相对较高,而在第一步(NMS 过程)获得的有更高重叠率的框已经被移除了。
图 4 展示了这三个步骤。
图 4:Recalled NMS 的三个步骤。左:传统 NMS 的结果(红色的四边形是误警)。中:回调的高分数四边形。右:根据接近程度融合结果。
3、实验
该论文所提出的方法在三个数据集上进行了评估:ICDAR2015 Incidental Scene Text、MSRA-TD500 和 ICDAR2013。这三个数据集都包含训练图像、测试图像和标注。ICDAR2015 数据集包含不同尺寸、分辨率、模糊程度、方向和视角的文本,而 ICDAR2013 中的文本都有很高的分辨率且很清晰。此外,ICDAR2015 和 MSRA-TD500 数据集有多方向文本,而另一个数据集的文本大都是水平方向的。
实验遵循了数据集创建者或竞赛组织者所提供的标准评估协议。所使用的三个评估指标为精度、召回率和 F-measure。一般而言,这些指标的值越大,实验算法就越好。
网络使用反向传播通过随机梯度下降(SGD)进行了优化,在来自 ICDAR2013 和 ICDAR2015 的训练数据集以及收集自互联网的 200 个负例图像(没有文本的场景图像)上进行了训练。
实验结果在以下表格中给出。表 1 中的结果表明,在精度和召回率上,这里提出的方法在 ICDAR2015 Incidental Scene Text 数据集上的表现都显著优于之前的方法。但是,表 2 和表 3 中在 MSRA-TD500 数据集和 ICDAR2013 Focused Scene Text 数据集上得到的评估结果却表明这里提出的方法并没有太大优势。我们可以得出结论:这里所提出的方法确实对多方向文本检测效果很好,因为 ICDAR2015 数据集主要是多方向文本。此外,除了精度、召回率和 F-measure,表 3 还列出了每种方法在每张图像上的时间成本。
表 2:各种方法在 MSRA-TD500 数据集上的比较
表 3:各种方法在 ICDAR2013 Focused Scene Text数据集上的比较
下面给出了一些检测示例:
4、总结
这篇论文首先将已有的目标检测框架划分成了基于直接回归的方法和基于间接回归的方法,并分析了这两种方法在不规则形状的目标检测上的优缺点。然后,论文提出了一种用于多方向场景文本检测的基于直接回归的全新方法。这种检测框架简单直接又很有效,仅有一个后处理步骤。此外,其在场景附带的文本的检测上表现尤其好。所提出的方法在 ICDAR2015 Incidental Scene Text 基准上取得了优良的表现。除此之外,这篇论文还分析了其表现优良的原因,并将所提出的方法与其它近期的场景文本检测系统进行了比较。
参考文献
[1]D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014. 1, 3
[2]H.Chen,S.S.Tsai,G.Schroth,D.M.Chen,R.Grzeszczuk, and B. Girod. Robust text detection in natural images with edge-enhanced maximally stable extremal regions. In Proceedings of the 18th IEEE International Conference on Image Processing, pages 2609–2612. IEEE, 2011. 2
[3]R. Girshick. Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision, pages 1440–1448, 2015. 1, 3, 4