云从科技在自然场景OCR任务取得重大技术突破

日前,云从科技在自然场景OCR中的文本检测这个环节取得了技术突破,在检测准确率和检测效率两个综合维度上,获得了至今为止最好的结果。和面对高质量文档图像的传统OCR相比,自然场景OCR跳出了对输入图像的质量和场景束缚,能够在更宽泛的领域中获取应用,引起了学术界以及工业界的极大关注。在自然场景文本检测测试集ICDAR2015上,云从科技提出的Pixel-Anchor文本检测框架,取得87.68分的检测准确率(FMeasure,一种检出率和精确度的加权), 获得单尺度文本检测准确率的第一名, 同时该文本检测框架在960×1728的分辨率下检测效率达到了10FPS,既有较强的学术意义,又可以满足实际生产环境的实时性需求。为了验证算法的有效性,Pixel-Anchor文本检测框架在难度更高的多语言自然场景文本检测测试集ICDAR2017 MLT上,经过简单的尺度组合,在学术界所有公开文献的竞争方法中以74.54的分数获得了多语言综合文本检测准确率的第一名, 特别对于ICDAR2017 MLT中的东亚语言部分,该文本检测框架的表现尤为出色,在多个子测试集上(包括中文)都获得了第一。该框架在所有测试集上只用到了文本的通用特征,未引入文本识别作为反馈信息。

文章地址:https://arxiv.org/abs/1811.07432

背景导读

OCR技术有着悠久的发展历史,从上世纪60年代第一个识别英文字母的OCR产品面世以来,OCR的识别领域逐步扩展到数字,符号,进而其他语言,譬如拉丁语系中的法文,德文,意大利文等,东亚语系中的中文,日文,韩文等。OCR一般包含两个基本模块,文本检测和文本识别。在深度学习技术发展之前,传统OCR的文本检测依赖于一些浅层次的图像处理方法或者图像分割方法以及一些复杂繁琐的后处理技术进行文字定位,譬如早期基于二值化的连通域提取,或者后期基于极大稳定区域的字符区域提取,之后再配合这些被提取区域进行一系列的连接操作来完成最终的文本定位。因为这些技术的使用,传统OCR所处理的对象往往局限于成像清晰,背景干净,字体简单而同时又排列规整的文档图像。

随着深度学习的发展,在OCR的文本检测领域中,也涌现出一系列端到端的深度学习检测框架,OCR所能处理的对象逐步从高质量的文档图像扩展到成像质量高低不等,背景复杂,字体多样,文本方向任意的自然场景中。应用范围也从文档识别扩展到图片广告过滤,场景理解,商品识别,街景定位,票据识别等广泛的领域。下图是几个自然场景文本检测的例子。

研究成果

目前基于深度学习的文本检测框架可以分为两类,一类是基于像素级别的图像语义分割,另一类是来源于通用的物体检测框架,譬如基于锚(anchor)的检测和回归。基于像素分割的文本检测框架首先通过图像语义分割获得可能的文本像素,之后通过像素点直接回归或者对文本像素的聚合得到最终的文本定位;而基于锚检测回归的文本检测框架是在通用物体检测的基础之上,通过设置更多不同长宽比的锚来适应文本变长的特性,以达到文本定位的效果。基于像素分割的文本检测往往具有更好的精确度,但是对于小尺度的文本,因为适用的文本像素过于稀疏,检出率通常不高,除非以牺牲检测效率为代价对输入图像进行大尺度的放大;基于锚检测回归的文本检测对文本尺度本身不敏感,对小文本的检出率高,但是对于大角度的密集文本块,锚匹配的方式会不可避免的陷入无法适从的矛盾之中,此外,由于这种方法是基于文本整体的粗粒度特征,而并不是基于像素级别的精细特征,它的检测精度往往不如基于像素分割的文本检测。对于中文这样文本长度跨度很大的语言,目前的这两种方法在长文本上的效果都不尽人意。

针对这些问题,云从科技提出了一种端到端的深度学习文本检测框架Pixel-Anchor,通过特征共享的方式高效的把像素级别的图像语义分割和锚检测回归放入一个网络之中,把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。此外,对于如中文这样文本长度跨度很大的语言,在Pixel-Anchor中,我们提出了一个自适应的预测层,针对不同层级的特征所对应的感受野范围,设计不同的锚以及锚的空间位置分布,以更高的效率更好的适应变化的文本长度。如前所述,在两个具有挑战性的自然场景文本检测测试集ICDAR2015以及ICDAR2017 MLT,Pixel-Anchor在检测准确率和检测效率两个综合维度上,获得了至今为止最好的结果(具体结果见下面Table 1,Table 2和Table 3)。该框架在满足生产环境实时性要求的基础上获得了很高的检测准确率,目前该框架已在云从科技的证件票据识别系统和图片广告过滤系统中上线。




文章导读

Pixel-Anchor这套文本检测框架,和目前主流的文本检测框架相比,提出了两个大的改进点:

第一点是提出了把像素级别的图像语义分割以及基于锚的检测回归方法高效融合在一起,可端到端训练的检测网络。在该网络中,像素级别的图像语义分割以及基于锚的检测回归方法共享基础特征,而像素级别的图像语义分割结果作为一种注意力机制,用以监督锚检测回归的执行过程,在有效保证文本检出率的同时,提升了文本检测的精度。

总体框架见上图,Pixel-Anchor采用学术界通用的ResNet-50作为特征提取主干网络,提取出1/4,1/8,1/16的特征图作为像素级别语义分割模块(Figure 5)以及锚检测回归模块(Figure 6)的基础特征,同时语义分割模块的输出结果以热力图的形式注入到锚检测回归模块中。整个网络简单轻巧,可通过ADAM优化方法进行端到端的训练。

第二点是在锚检测回归这个模块中引入了自适应预测层“Adaptive Predictor Layer”,该预测层连接在不同层级的特征图之后,根据各特征图感受野的不同,调整锚的长宽比,卷积核的形状以及锚的空间密度(anchor density,见Figure 7),用以高效的获得各特征图上的文本检测结果,进而对文本长度的变化获得更好的适应性。自适应预测层在检测水平长文本上的性能非常出色,和经典的CTPN方法相比,我们的方法不需要复杂的后处理,更鲁棒的同时效率更高。

                   

产业云从科技OCR
21
相关数据
云从科技机构

云从科技是从中国科学院孵化的人工智能企业,专注于人脸识别等计算机视觉技术研发。核心技术源于四院院士、计算机视觉之父——Thomas S. Huang 黄煦涛教授。研发团队曾于2007年到2016年7次斩获智能识别类世界大赛冠军。云从科技作为中国科学院战略性先导科技专项的唯一人脸识别团队,参与了人脸识别国标、部标、行标起草与制定; 2017年2月,云从科技入选国家发改委重大工程,与百度、腾讯、科大讯飞共同负责人工智能公共平台建设。

http://www.cloudwalk.cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

推荐文章
一色里