全面盘点OCR产业发展态势,国内首份OCR白皮书正式发布

9月28日,在工业和信息化部、北京市人民政府、国际电信联盟ITU-T指导的2020AIIA人工智能开发者大会上,主办方正式发布国内首份智能文字识别(OCR)能力测评与应用白皮书。白皮书从OCR发展背景、技术沿革、产业发展现状、技术标准化、发展趋势等多个维度,对当前国内OCR产业进行了一次详细梳理,全面助推OCR技术产业化加速落地及可持续发展。

OCR是光学字符识别(Optical Character Recognition)的缩写,指利用机器将图像中手写体或印刷体的文本转换为计算机可以直接处理的格式。作为计算机视觉领域的重要分支,OCR典型应用是通过图像文字识别实现信息录入。同时,由于文字和符号包含丰富的语义信息,基于OCR提取文字信息继而进行分析,能够帮助机器更好地理解图像。

据了解,这份白皮书是由中国信息通信研究院、中国人工智能产业发展联盟、腾讯云AI计算机视觉中心、腾讯安全战略研究部、腾讯优图实验室联合起草。

新基建带来新机遇,OCR技术发展三大趋势

借助人工智能技术,近年来OCR性能的不断提升为产业数字化催生出的更复杂的OCR应用场景提供了坚实支撑。同时,覆盖手机、电子产品以及云服务在内的更加多样化的服务载体,进一步加快了OCR的普及,持续向社会生产生活的更多领域渗透。

尤其是今年4月,发改委明确将人工智能基础设施列入“新基建”范围,作为人工智能应用中最接“地气”,商业推广较为成熟的领域,OCR产业在“新基建”背景下无疑将迎来新的发展机遇,相关技术也将迎来新一轮的变革。

报告指出,OCR技术未来发展的三大方向主要包括一体化的端到端OCR模型、兼具高性能高效率的OCR、从感知到认知的智能OCR。

详细来说,构建一体化的端到端网络,同时对文字检测和识别进行训练,将成为OCR技术发展的重要趋势之一。端到端的网络设计不仅能够减少重复计算,又能够提高特征的质量,促进任务性能的改善。同时,大量的OCR应用需要在资源受限的移动端设备上运行,当前移动端OCR算法大多以牺牲一定的算法精度来换取运行速度,针对移动设备设计兼顾性能和效率的轻量OCR模型将是未来发展的重要方向。

另外,从感知到认知的智能OCR来说,OCR技术通常从计算机视觉领域出发,未来与自然语言处理技术、知识图谱等更广领域的交叉融合,通过语义及知识的深度挖掘提升OCR性能是重要趋势。此外,在OCR中引入强化学习元学习等新的学习范式,让机器自主学习如何识别文字,也将成为研究热点。

市场规模达133.81亿美元OCR成科技巨头标配

目前,OCR技术已在金融、保险、医疗、交通、教育等诸多行业有了深入成熟的应用。未来随着传统行业的数字化转型,OCR应用范围和场景将进一步扩展,市场规模将进一步增大。有权威机构预测,2025年全球OCR市场规模将达到133.81亿美元。

早期受限于技术发展水平,OCR厂商通常从特定应用切入,例如车牌识别系统等,形成了一系列专用设备。近年来,越来越多的终端设备及应用均嵌入了OCR技术,并逐渐形成了从基础设施、基础能力到终端应用的完整产业链生态,也衍生出了卡证、票据等一系列细分OCR能力,通过组合的方式服务于各个行业。OCR产业生态图不难看出,OCR技术逐渐“下沉”为一项基本的能力,为上层不同的业务应用提供底层技术支撑。以腾讯云为代表的科技巨头和云计算厂商正在纷纷加速布局OCR,在满足自身内部业务需求的同时,不断对外开放先进的OCR能力,OCR已然成为科技巨头能力标配。

多行业场景成熟落地,首次发布OCR评测标准

在具体的落地应用层面,目前卡证识别、票据识别等标准场景文字识别已经相对成熟,手写文字识别在教育、物流等行业的应用也在不断扩大。复杂动态场景下的OCR技术和应用成为近两年的热门研究方向,比如在无人驾驶、机器人等场景利用OCR对视场中出现的文字进行识别等。

在此次发布的白皮书中,腾讯云也公布了其多项OCR领域的典型落地案例。

丰巢快递柜通过使用腾讯云联合腾讯优图实验室提供的身份证OCR技术,身份证字段识别准确率高达99%,大幅提高了用户寄件、取件的效率;宁波银行通过采用腾讯云联合腾讯优图实验室打造的智能票据OCR解决方案,将识别的字段准确率提升至90%以上,更好地满足了银行业务场景的需要。搜狗广告图片文本审核借助OCR产品服务帮助客户自动识别海量的图片文字内容,从而高效地进行广告图片违法内容识别,降低客户业务的违规风险。

值得一提的是,为全面降低OCR相关领域的应用门槛,避免出现鱼龙混杂局面,白皮书也首次公布OCR评测标准和规范。

今年4月,中国人工智能产业发展联盟制定了《OCR服务智能化分级技术要求和评估方法》,规定了OCR服务在功能、性能、安全等方面的技术要求以及评估方法。7月,OCR服务要求及评估方法在国际电信联盟ITU-T SG16组成功立项,标志着深度学习背景下的OCR评测方法已经逐渐被国际标准组织所接受。

在此之中,腾讯深度参与推动OCR领域技术革新和标准制定,帮助企业客观、全面地评价不同OCR服务能力。目前,由中国人工智能产业发展联盟指导,腾讯云开发的天鉴OCR服务引擎自动化评测平台,不仅能够为OCR技术供给方提供技术测试服务,也将发布OCR技术或产品的测试结果,为需求方提供客观公正的选型依据。

产业OCR
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。 搜狗在产品上追求技术创新,紧跟时代步伐,强调战略布局。经过长期摸索和反复尝试,目前形成了以搜索引擎、输入法和浏览器为主,以通话管理、地图、智能硬件等产品为辅的产品布局。

http://corp.sogou.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
车牌识别技术

车牌识别(License Plate Recognition)是基于图像分割和图像识别理论,对含有车辆号牌的图像进行分析处理,从而确定牌照在图像中的位置,并进一步提取和识别出文本字符。

推荐文章
暂无评论
暂无评论~