光学字符识别

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

来源:维基百科
简介

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

传统扫描文件(printed document)的光学字符识别一般涉及到以下技术:

  • 图像预处理,如去偏移(De-skew)使图像中的文本行完全水平或垂直、去除噪声(Despeckle)、二值化(Binarisation)将图片转换为黑白图片使得图片只剩下前景信息和背景信息、版面分析(Layout analysis)将文档图片分段落等步骤;
  • 字符探测(text detection),确定图像中字符的存在和位置;
  • 字符切割(character segmentation)将字符分离出来;
  • 字符识别,这里主要分为模板匹配(Matrix matching)和特征提取(eature extraction )两种算法;
  • 后处理,据特定的语言上下文的关系,对识别结果进行校正;

[描述来源: 维基百科 URL:https://en.wikipedia.org/wiki/Optical_character_recognition]

发展历史

光学字符识别起源于电报技术和为盲人创建阅读设备的技术。1870年美国发明家Charles R. Carey发明的使用光电池镶嵌的图像传输系统的视网膜扫描仪被认为是世界上第一个OCR发明。 1914年Edmund Fournier d'Albe开发了将文字转化为语音的Optophone,这是一种手持式扫描器,当将其在印刷页面上移动时,机器会根据扫描到的文字发声。1960到1970年间,关于OCR的研究主要集中在对于机器打印的文本的识别,并且取得了很高的准确率。20世纪70年代中期开始,关于OCR的研究转移到了挑战质量差的文档和大量的印刷和手写字符集。

随着智能手机和智能眼镜的出现,OCR的应用重点转移到了从互联网连接的移动设备应用程序,提取使用设备摄像头拍摄的文本。这些在操作系统中没有内置OCR功能的设备通常会使用OCR API从设备捕获和提供的图像文件中提取文本。 OCR API将提取的文本以及原始图像中检测到的文本的位置信息返回给设备应用程序,以便进一步处理(如文本到语音)或显示,如智能手机的实时外语翻译应用。2005年惠普和内华达州拉斯维加斯大学联合推出了免费的跨平台OCR引擎Tesseract。近年来随着深度学习的快速发展,卷积神经网络(CNN)和递归神经网络(RNN)也被应用于OCR 之中。

目前光学字符识别在收据OCR、支票OCR等领域的应用已经十分成熟,它们可以用于商业文件的数据输入、车辆信息自动识别、保险单据关键信息自动提取、名片信息提取到联系人列表、印刷文件的文本版本制作、盲人和视障用户的辅助技术等。

1998年Yann LeCun等学者提出了LeNet-5,一种用于识别数字的卷积神经网络,并且取得了高于当时其他常用算法的准确率。2004年Chen和Yuille探讨了在自然场景中识别并理解文字的任务,他们提出了将该任务分解为文本识别和文本理解两个部分的想法。2014年Jaderberg,Vedaldi和Zisserman在他们发表的文章中利用卷积神经网络(CNN)建立了应用于自然图像文字识别的端到端(end-to-end)的分类器,并且在两个基准问题(benchmark problem)上取得了令人满意的成绩。

主要事件

年份事件相关论文/Reference
1870美国发明家Charles R. Carey发明了使用光电池镶嵌的图像传输系统的视网膜扫描仪Schantz, H. F. (1982) The history of OCR: optical character recognition, Recognition Technologies Users Association.
19141914年Edmund Fournier d'Albe开发了能将文字转化为语音的Optophoned'Albe E. E. F. (1914). On a Type-Reading Optophone. Proceedings of the Royal Society of London A: Mathematical, Physical and Engineering Sciences. 90(619): 373–375.
1982Tanaka等学者提出了针对“不规则”文字识别的算法Tanaka H.; Hirakawa Y.; Kaneku S. (1982). Recognition of distorted patterns using Viterbi algorithm. IEEE T. Pattern Anal. Mach. lntell. 4, 18-25.
1985Shildhar和Badreldin提出了能够准确识别手写数字的算法Shildhar M.; Badreldin A.(1985). A high accuracy syntactic recognition algorithm for handwritten numerals, IEEE T. Syst. Man Cyb. 15.
1986Tampi和Chetlur提出了分割手写字符的算法Tampi K.R.; Chetlur S. S. (1986). Segmentation of handwritten characters, Proc. 8th Int. J. Conf. Pattern Recognition. pp684-686.
1998Yann LeCun等学者提出了LeNet-5Yann L.; Bottou L.; Bengio Y.; Haffner P. (1998).Gradient-based learning applied to document recognition. Proceedings of the IEEE. 86(11): 2278–2324.
20042004年Chen和Yuille提出了将该任务分解为文本识别和文本理解两个部分的想法Chen X.; Yuille A.L. (2004). Detecting and reading text in natural scenes. In: Computer Vision and Pattern Recognition. Proceedings of the 2004 IEEE Computer Society Conference on. 2: II–366.
2014Jaderberg,Vedaldi和Zisserman在他们发表的文章中利用卷积神经网络(CNN)建立了应用于自然图像文字识别的端到端(end-to-end)的分类器Jaderberg M.; Vedaldi A.; Zisserman A.(2014). Deep Features for Text Spotting. European Conference on Computer Vision.

发展分析

瓶颈

目前对单个字符识别的技术目前已经比较成熟,OCR的难点主要在于如何在复杂的场景图片上成功实现字符识别,由于在场景图片中文字的呈现是高度不规则的,一些问题如文字在照片中可能只占很小的位置,或者部分文字信息被遮盖等都会给文字识别带来困难。此外,一些OCR任务要求算法在识别字符的基础上,还要对字符有一定的理解能力,从而仅提取对应的字符。

未来发展方向

目前的研究主要集中于在现实的、复杂的生活场景中实现OCR任务,即在强噪音的情况下保证算法稳健的表现。

Contributor: Yuanyuan Li

相关人物
杨立昆
杨立昆
杨立昆(法语:Yann Le Cun,英语:Yann LeCun,1960年7月8日-)是一位计算机科学家,他在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献。他最著名的工作是在光学字符识别和计算机视觉上使用卷积神经网络 (CNN),他也被称为卷积网络之父。他同Léon Bottou和Patrick Haffner等人一起创建了DjVu图像压缩技术。他同Léon Bottou一起开发了Lush语言。
约书亚·本吉奥
约书亚·本吉奥
约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。
Edmund Edward Fournier d'Albe
Edmund Edward Fournier d'Albe
简介
相关人物