2018/09/07 16:39

旷视科技提出TextSnake：一个检测任意形状文本的灵活表征

全球计算机视觉三大顶会之一 ECCV 2018 （European Conference on Computer Vision）即将于9月8 -14日在德国慕尼黑拉开帷幕。届时，旷视首席科学家孙剑博士将带领团队远赴盛会，助力计算机视觉技术的交流与落地。而在此之前，旷视科技将陆续推出 ECCV 2018 接受论文系列解读。本文是第 3 篇解读，一个用于检测任意形状文本的灵活表征——TextSnake。

论文名称：TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

论文链接：https://arxiv.org/abs/1807.01544

导语

无论深度学习之前或是之后，文本识别一直是计算机视觉领域的重要研究课题之一，因为在现实世界的场景之中，文本几乎无处不在。机器之眼要看懂世界，首先要很好地做到检测和识别场景文本。深度学习的出现，使得这一技术获得飞跃发展，但仍有一些障碍要克服。由于受限于传统的文本表征方法，一些随意形状的文本比如曲形文本不能得到完善的处理。麻烦的是，曲形文本在现实世界中很常见。有鉴于此，旷视科技提出一个可以检测任意形状文本的灵活表征——TextSnake，基于这一表征的文本检测器在很大程度上优化解决了任意形状文本的检测和识别问题，并在相关数据集上取得了当前最优或有竞争力的结果。表征属于基础技术中的基础，其创新也可谓创新中的创新，非常根本，这表明旷视科技不仅有真做原创技术的决心，有技术信仰，更有行动方面的实锤；而这一技术的优异表现经过工程化的塑造，也会落实到旷视科技的产品线之中，转化为商业价值。具体而言，该技术的底层创新将会加速智慧零售，智慧城市，自动驾驶，互联网文娱，社交网络等行业的应用落地。

背景

近年来，从自然场景中提取文本信息，即场景文本检测与识别，成为了学术研究的热点。究其原因有二，应用前景和学术价值。一方面，场景文本检测与识别在一系列的实际应用中发挥着日益重要的作用，比如场景理解，产品搜索，自动驾驶等；另一方面，场景文本自身的独特属性使其有别于一般物体。

作为文本信息提取的前提条件之一，文本检测在深度神经网络和大型数据集的助力之下，取得了长足进展，出现了大量创新性工作，并在基准数据集上取得了优异的表现。

但是，现有大多数的文本检测方法有一个共同的假设：文本实例的形状大体上是线性的，因此可以采用相对简单的表征（轴对齐矩形，旋转矩形，四边形）去描述它们。尽管存在不少进步，但是在处理不规则形状的文本实例时，依然会暴漏出短板。如图 1 所示，对于带有透视变形（perspective distortion）的曲形文本（curved text）来讲，传统的表征方法在精确估计几何属性方面显得力不从心。

图 1：文本实例不同表征方法的对比。（a）轴对齐矩形。（b）旋转矩形。（c）四边形。（d）TextSnake。

设计思想

事实上，曲形文本的情况在现实世界中很常见。本文提出一种更为灵活的表征，可以很好地拟合任意形状的文本，比如水平文本，多方向文本，曲形文本。这种表征通过一系列有序、彼此重叠的圆盘（disk）描述文本，每个圆盘位于文本区域的中心轴上，并带有可以变化的半径和方向。由于其在适应文本结构多样性方面的优异表现，就像蛇一样改变形状适应外部环境，该方法被命名为 TextSnake。文本实例的几何属性（比如中心轴点，半径，方向）则通过一个全卷积网络（FCN）进行评估。

除了 ICDAR 2015 和 MSRA-TD500 之外，TextSnake 的有效性还在 Total-Text 和 SCUT-CTW1500 （两个新公布的针对曲形文本的数据集）上获得了验证，并取得了当前最优的表现；此外，该方法还在水平文本和多方向文本上超越先前方法，即使是在单一尺度测试模式之下。具体而言，TextSnake 获得显著提升，在 Total-Text 数据集上 F-measure 超越基线 40%。

总结一下，本文贡献主要有 3 个方面：（1）本文提出一种灵活而通用的表征，可用于任意形状的场景文本；（2）基于这一表示，本文提出一种有效的场景文本检测方法；（3）该方法在包含若干个不同形式（水平，多方向，曲形）的文本实例数据集上取得了当前最优的结果。

方法

本节将首先介绍针对任意形状文本的新表征，接着描述本文提出的新方法及训练细节。

表征

图 2：TextSnake 图示

TextSnake 将一个文本区域（黄色）表征为一系列有序而重叠的圆盘（蓝色），其中每个圆盘都由一条中心线（绿色，即对称轴或骨架）贯穿，并带有可变的半径 r 和方向 θ 。直观讲，TextSnake 能够改变其形状以适应不同的变化，比如旋转，缩放，弯曲。

从数学上看，包含若干个字符的文本实例 t 可被看作是一个序列 S(t) 。S(t) = {D_0,D_1,··· ,D_i,··· ,D_n} ，其中 D_i 表示第 i 个圆盘，n 表示圆盘的数量。每个圆盘 D 带有一组几何属性， r 被定义为 t 的局部宽度的一半，方向 θ 是贯穿中心点 c 的中心线的正切。由此，通过计算 S(t) 中圆盘的重合，文本区域 t 可轻易被重建。

注意，圆盘并非一一对应于文本实例的字符。但是圆盘序列的几何属性可以改正不规则形状的文本实例，并将其转化为对文本识别器更加友好的矩形等。

Pipeline

图 3：方法框架图：网络输出与后处理

为检测任意形状的文本，本文借助 FCN 模型预测文本实例的几何属性。基于 FCN 的网络预测文本中心线（TCL），文本区域（TR）以及几何属性（包括 r，cosθ，sinθ）的分值图。由于 TCL 是 TR 的一部分，通过 TR 而得到 Masked TCL。假定 TCL 没有彼此重合，需要借助并查集（disjoint set）执行实例分割。Striding Algorithm 用于提取中心轴点，并最终重建文本实例。

架构

图 4：网络架构。蓝色方块表示 VGG-16 的卷积阶段

在 FPN 和 U-net 的启发下，本文提出一个方案，可逐渐融合来自主干网络不同层级的特征。主干网络可以是用于图像分类的卷积网络，比如 VGG-16/19 和 ResNet。这些网络可以被分成 5 个卷积阶段（stage）和若干个额外的全连接层。本文移除全连接层，并在每个阶段之后将特征图馈送至特征融合网络。出于与其他网络进行公平而直接对比的考虑，本文选择 VGG-16 作为主干网络。

预测

馈送之后，网络输出 TCL，TR 以及几何图。对于 TCL 和 TR，阈值分别设为 T_tcl

和 T_tr；接着，TCL 和 TR 的交叉点给出 TCL 最后的预测。通过并查集，可以有效把 TCL 像素分割进不同的文本实例。最后，Striding Algorithm 被设计以提取用来表示文本实例形状和进程（course）的有序点，同时重建文本实例区域。

图 5：后处理算法图示

Striding Algorithm 的流程如图 5 所示。它主要包含 3 个部分：Act(a)Centralizing ，Act(b) Striding 和 Act(c)Sliding 。首先，本文随机选择一个像素作为起点，并将其中心化。接着，搜索过程分支为两个相反的方向——striding 和 centralizing 直到结束。这一过程将在两个相反方向上生成两个有序点，并可结合以生成最终的中心轴，它符合文本的进程，并精确描述形状。

实验

本节在标准数据集上评估了 TextSnake 的场景文本检测能力，并与先前同类方法进行了对比，数据集主要有 SynthText，TotalText，CTW1500，ICDAR 2015，MSRA-TD500。本节还给出了有关 TextSnake 的算法分析与讨论。

Total-Text & CTW1500

Total-Text & CTW1500 数据集上展开的是有关曲形文本的实验，其优异表现证明了TextSnake 在处理曲形文本方面的有效性。表 1 & 表 2 分别是两个数据集上不同方法的量化结果。

表 1：Total-Text 上不同方法的量化结果。TextSnake 在精度、查全率、F 值上分别取得了

82.7%，74.5%，78.4% 的成绩，大幅超越先前方法。

表 2：CTW1500 上不同方法的量化结果。TextSnake 在精度、查全率、F 值上分别取得了

67.9%，85.3%，75.6% 的成绩。

ICDAR 2015

ICDAR 2015 上进行的是有关偶然场景文本的实验。在单一尺度测试中，TextSnake 超越了绝大多数现有方法（包括那些在多尺度中评估的方法），这证明了 TextSnake 的通用性以及已经可用于复杂场景的多方向文本。

表 3：ICDAR 2015 上不同方法的量化结果。∗ 表示多尺度，† 表示模型的主干网络不是 VGG-16

MSRA-TD500

本文在 MSRA-TD500 上进行有关长直文本线的实验。其中 TextSnake 的 F 值 78.3% 优于其他方法。

表 4：MSRA-TD500 上不同方法的量化结果。† 表示模型的主干网络不是 VGG-16

分析与讨论

TextSnake 之所以出类拔萃，在于其对文本实例的进程及形状的精确描述具有预测的能力（见图 8）。而这一能力来自对 TCL 进行的预测，它要比整个文本实例窄很多。这样做有两个优势：1）纤细的 TCL 可以更好地描述进程和形状；2）TCL 彼此不会重叠，因此实例分割得以一种十分简单而直接的方式完成，由此简化 pipeline。

图 8：TextSnake 定性结果。上：已检测文本轮廓（黄色）和 groundtruth 注解（绿色）。下：TR（红色）和 TCL（黄色）的分值合图。从左到右图像分别来自 ICDAR 2015，TotalText，CTW1500 和 MSRA-TD500。

此外，本文还利用局部几何属性描绘文本实例的结构，把已预测的曲形文本实例转化为规范形式，这大大减轻了后续识别阶段的工作。

图 9：通过已预测的几何属性把文本实例转化为规范形式

为进一步验证 TextSnake 的泛化能力，本文在不包含曲形文本的数据集上进行了训练和微调，并在含有曲形文本的两个数据集上做了评估。在没有曲形文本微调的情况下，TextSnake 依然表现良好，并显著超越其他三个竞争者 SegLink，EAST 和 PixelLink，这要归功于 TextSnake 作为灵活表征的优秀泛化能力（见表 5）。

表 5：不同方法下的交叉验证集结果对比

TextSnake 把文本看作一个局部元素的集合，而不是一个整体，并通过整合元素的方式做决策。因此，TextSnake 最后的预测可以保持文本进程和形状的最大量信息，这是该算法胜任不同形状文本实例的主要原因。

结论

本文提出一种全新而灵活的表征——TextSnake，可以描述任意形状的场景文本，包括水平文本，多方向文本和曲形文本。基于 TextSnake 的文本检测新方法已在两个新开源的曲形文本数据集（Total-Text 和 SCUT-CTW1500）和两个经典数据集（ICDAR 2015 和 MSRA-TD500）上取得了当前最优或有竞争力的结果，证实了该方法的有效性。未来，本文作者将尝试开发一个针对任意形式文本的端到端识别系统。

参考文献

[1] Zhou et al. EAST: An Efficient and Accurate Scene Text Detector. CVPR 2017

[2] Shi et al. Detecting Oriented Text in Natural Images by Linking Segments. CVPR 2017

[3] Yao et al. Scene text detection via holistic, multi-channel prediction. arXiv:1606.09002

[4] Zhang et al. Multi-oriented text detection with fully convolutional networks. CVPR 2016

[5] He et al. Deep direct regression for multi-oriented scene text detection. ICCV 2017

旷视科技

Power Human with AI

理论ECCV 2018旷视科技TextSnake

相关数据

孙剑人物

孙剑，男，前微软亚研院首席研究员，现任北京旷视科技有限公司（Face++）首席科学家、旷视研究院院长。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇，两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类，检测和定位，MS COCO 检测和分割) ，其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

来源：个人页面百度百科 Sun, J

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

交叉验证技术

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段，以便减少像过拟合的问题，得到该模型将如何衍生到一个独立的数据集的提示。

来源：维基百科

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia