乾树 李泽南翻译

阿里提出IncepText:全新多向场景文本检测模块

文本检测在很多应用中扮演着重要的角色,但这也是一个颇具挑战性的任务。阿里近期提出的端到端场景文本检测器 IncepText 在多个数据集的测试中实现了业内最佳水平,并已发布了开放的 OCR 产品接口。本研究的论文已被即将在 7 月于瑞典举行的 IJCAI 2018 大会接收。

场景文本检测是众多计算机视觉应用中最具挑战性的任务之一,它会应用在多语言翻译、图像检索自动驾驶等场景中。其中,首当其冲的挑战是场景文本会包含各种图像,如街景、海报、菜单、室内场景等。此外,场景文本在前景文本和背景对象中都有很大的变化,并且还具有不同的光照、模糊和方向条件。

在过去几年里,场景文本检测方向涌现了很多杰出的算法。文本检测的关键在于设计正确区分文本区域和非文本区域的特征。多数传统方法如 MSER [Neumann and Matas,2010] 和 FASText [Busta et al.,2015] 都使用手动设计的文本特征。

但这些方法不足以处理复杂的场景文本。最近,基于卷积神经网络(CNN)的方法在文本检测和识别 l 领域取得了傲人的成果 [He et al., 2016b; Tian et al., 2016; Zhou et al., 2017; He et al., 2017]。基于 CNN 的模型具有强大的特征表示能力,且更深的 CNN 模型能够提取更高级别或更抽象的特征。

在该领域,主要有两种类型的场景文本检测方法,即间接回归和直接回归。间接回归方法预测 box proposals 的坐标,如 CTPN [Tian et al。,2016] 和 RRPN [Ma et al。,2017] 等研究。这些方法都是基于 FasterRCNN [Ren et al.,2015] 框架。

近期,直接回归方法在场景文本检测上已经取得了不俗的表现,例如,East [Zhou et al,2017] 和 DDR [He et al,2017] 等研究。

在阿里的论文中,研究人员受到 FCIS 实例分割启发试图解决这个问题 [Li et al。,2016]。与普通的物体检测不同,场景文本经常会遇到很大的尺度,长宽比及方向的变化。因此,我们设计了一个创新性的 Inception-Text 模块来解决这些挑战。

该模块受 GoogLeNet 中的 Inception 模块 [Szegedy et al,2015] 的启发得出,研究人员采用多个不同卷积核的卷积分支来处理不同长宽比和比例的文本。我们在每个分支后面接一个可变形的卷积层以适应多方向文本。

相比原型,另一个改进是我们用可变形的 PSROI 池化层来替换 FCIS 中的 PSROI 池化层 [Dai et al,2017a]。根据实验来看,可变形的 PSROI 池化层在分类任务中表现更好。

本研究的主要贡献如下:

  • 我们提出了一个用于多方向场景文本检测的新的 Inception-Text 模块。实验表明,该模块可以大幅提高准确率,且计算成本很低。

  • 我们提出使用可变形的 PSROI 池化模块来处理多方向的文本。在对可变形 PSROI 池化和量化评估学习到的偏移部分进行的量化研究表明,它可以有效处理任意方向的场景文本。

  • 我们在三个基准数据集 ICDAR2015,RCTW-17 和 MSRA-TD500 上评估了新方法,结果表明新的方法在没有任何额外数据的情况下,在几个基准测试中都取得了业内最优的表现。

  • 我们提出的方法已在阿里公开发布的 OCR 产品中作为 API 服务实现。

在这篇论文中,我们会首先简要介绍场景文本检测,主要关注多方向场景文本检测。然后详细讲解新提出的方法,并在三个公共基准数据集上给出实验结果。最后进行总结,并讨论未来的工作。

提出的方法

我们提出的方法基于最初被提出用于实例分割的 FCIS [Li et al,2016] 框架。我们设计了一个创新的 Inception-Text 模块,并使用可变形的 PSROI 池化层来扩展该框架。图 1 给出了我们提出的模型体系结构的概述。

在图 1 中,基础特征提取模块是 ResNet50 [He et al,2016a]。精细的特征信息对于分割任务尤为重要,对于场景文本检测,第 5 阶段的下采样可能会丢失一些有用的信息。

因此,我们在第 5 阶段利用带孔卷积算法(hole algorithm)[Long et al,2015] 维持感受野。这一阶段的步长也由 2 改为 1,并且为了弥补步长减小带来的问题,这一阶段的所有卷积滤波器都使用带孔卷积来补偿减小的步幅。

为了预测小文本区域的准确位置,还需要考虑低级别特征。如图 1 所示,res4f 层和 res5c 层上采样 2 倍,再与 res3d 层相加。这两个融合的特征图后面接着用于场景文本检测的 Inception-Text 模块。

我们用可变形 PSROI 池化来替换 FCIS 中的 PSROI 池化,因为标准 PSROI 池化只能处理水平文本,而场景文本方向总是不确定的。类似于 FCIS,我们获得了如图 1 所示的带有 mask 和分类分数的文本框,然后根据他们的分数将 NMS 应用到框中。

对于每个未被抑制的框,我们要找到它的相似框,即与其自身 IoU> = 0.5 的框。未抑制的框预测的 mask 与其相似框通过使用分类分数作为它们的平均权重逐像素地进行加权平均来合并。然后使用一个简单的最小四边形算法来生成方向框。

图 1:IncepText 体系结构。该图中的基础特征提取模块是 ResNet-50。Inception-Text 模块在特征融合层后面,原始 PSROI 池化被替换为可变形的 PSROI 池化

图 2: Inception-Text 模块。

图 3:标准卷积和可变形卷积之间的比较。标准卷积(a)中的感受野是固定的,而可变形卷积(b)的感受野是自适应的。

图 8:我们的方法在 ICDAR2015(a)、RCTW-17(b)、MSRA-TD500(c)上的检测结果。(d)中列出了一些失败案例。红色框是 ground-truth 实景框,而绿色框是预测结果。黄色椭圆的边界框表示错误结果。

表 2:ICDAR2015 附带场景文本定位任务的结果。

论文:IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection(IncepText:一种新的具有可变形 PSROI 池化的用于多向场景文本检测的 Inception-Text 模块)


论文链接:https://arxiv.org/abs/1805.01167

摘要:附带场景文本检测,尤其是多向文本检测,是众多计算机视觉应用中最具挑战性的任务之一。与常见的物体检测任务不同,场景文本的长宽比,尺度和方向常常会发生巨大变化。

为了解决这一问题,我们从实例分割的角度提出了一种创新性的端到端场景文本检测器 IncepText。我们设计了一个新的 Inception-Text 模块,并引入了可变形的 PSROI 池化来处理多向文本检测。基于 ICDAR2015,RCTW-17 和 MSRA-TD500 数据集的大量拓展实验证明了我们方法的高效和可行性。

我们提出的方法在 ICDAR2015 比赛中获得第一名,并在其他数据集上获得最好的性能。此外,我们还发布了公众可访问的 OCR 产品接口。

理论论文阿里巴巴IJCAIIJCAI 2018文本检测
相关数据
计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

基准技术
baseline

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

池化技术
Pooling

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

上采样技术
Upsampling

图像检索技术
Image retrieval

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

GoogLeNet技术
GoogLeNet

同样在2014年,谷歌提出了 GoogLeNet(或Inception-v1)。该网络共有22层,且包含了非常高效的Inception模块,它同样没有如同VGG-Net那样大量使用全连接网络,因此参数量非常小。GoogLeNet最大的特点就是使用了Inception模块,它的目的是设计一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。

卷积技术
Convolution

推荐文章