Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

手写(数字)识别

机器学习的经典任务之一,CNN的早期应用

简介

数字识别(Digit Recognition),是计算机从纸质文档,照片,或其他来源接收和理解并识别可读的数字的能力。根据数字来源的产生方式的不同,目前数字识别问题可以区分为手写体数字识别,印刷体数字识别,光学数字识别,自然场景下的数字识别等,具有很大的实际应用价值。例如手写体数字识别可以应用在银行汇款单号识别中,以极大的减少人工成本,印刷体识别可以应用在邮政编码自动识别问题上,光学数字识别和自然场景数字识别则应用在车辆检测中的车牌号识别问题上。

目前比较受到关注的问题主要是手写体数字识别,由于其具有MNIST这种大型标准易用的成熟数据集,简单的0-9数字识别已经被作为计算机视觉领域的入门问题。以LetNet-5为例,该神经网络使用手写数字的图片作为输入,如下图中间的方框显示,并经过神经网络的卷积层、采样层和全连接层,最终输出其对输入数字的判断,如下图answer处所示。

[描述来源:LeCun, Y.; Bottou, L.; Bengio, Y. & Haffner, P. (1998). Gradient-based learning applied to document recognition.Proceedings of the IEEE. 86(11): 2278 - 2324.]

[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Handwriting_recognition]

发展历史

数字识别的概念是光学字符识别(OCR)的子概念,而光学字符识别起源于电报技术和为盲人创建阅读设备的技术。研究初期,识别的文字对象仅为0-9的数字,直至1965至1970年之间开始有一些简单的产品,数字识别技术开始被应用在邮编识别等工作场景中。1985年,Shildhar和Badreldin提出了能够准确识别手写数字的算法,他们使用拓扑特征,并结合语法分类器以高精度识别手写数字。1989年,Yann LeCun等人在贝尔实验室将使用反向传播算法训练的卷积神经网络结合到读取“手写”数字上,并成功应用于识别美国邮政服务提供的手写邮政编码数字,成为了LeNet系列卷积网络的雏形。同年,Yann LeCun在发表的另一篇论文中描述了一个小的手写数字识别问题,并且表明即使该问题是线性可分的,单层网络也表现出较差的泛化能力。而当在多层的、有约束的网络上使用有位移不变性的特征检测器(shift invariant feature detectors)时,该模型可以在此任务上表现得非常好。1990年他们发表的论文再次描述了反向传播网络在手写数字识别中的应用,他们仅对数据进行了最小限度的预处理,而模型则是针对这项任务精心设计的,并且对其进行了高度约束。输入数据由图像组成,每张图像上包含一个数字,在美国邮政服务提供的邮政编码数字数据上的测试结果显示该模型的错误率仅有1%,拒绝率约为9%。

1994年,Yann LeCun,Leon Bottou等人比较了几个分类算法在手写数字标准数据库上的性能,该比较同时考虑了准确率、训练时间、识别时间等。1998年,Yann LeCun,Leon Bottou,Yoshua Bengio和Patrick Haffner等人再次发表论文,回顾了应用于手写字符识别的各种方法,并用标准手写数字识别基准任务对这些模型进行了比较,结果显示卷积神经网络的表现超过了其他所有模型。该研究获得了巨大的成功,从那时起,神经网络及他们使用的MNIST数据集成为了手写数字识别的流行算法和验证算法的基本数据集。

当然,神经网络并不是识别手写数字的唯一算法。早于1997年,Scholkopf等人就使用支持向量机在(SVM)美国手写数字邮政服务数据库上进行了测试,测试的模型有使用RBF内核的SVM、高斯核函数的SVM和由SVM方法确定的中心和由误差反向传播训练的权重的混合系统,结果显示支持向量机在当时的模型中实现了最高的精度。

(手写)数字识别目前已成为人工智能领域及计算机视觉领域的基本问题,大量的识别算法涌现,近几年来在MNIST数据集上,其识别准确率更是高达99%。

主要事件

年份事件相关论文/Reference
1985Shildhar和Badreldin提出了能够准确识别手写数字的算法Shildhar M.; Badreldin A.(1985). A high accuracy syntactic recognition algorithm for handwritten numerals, IEEE T. Syst. Man Cyb. 15.
1989Yann LeCun等人提出了LeNet的最初形式LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W. & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4):541-551.
1989Yann LeCun分析了手写数字识别问题LeCun, Y.(1989). Generalization and network design strategies. Technical Report CRG-TR-89-4, Department of Computer Science, University of Toronto.
1990他们发表的论文再次描述了反向传播网络在手写数字识别中的应用LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W. & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. Advances in Neural Information Processing Systems 2 (NIPS*89).
1994Yann LeCun,Leon Bottou等人比较了几个分类算法在手写数字标准数据库上的性能Bottou, L. et al., (1994). Comparison of classifier methods: a case study in handwritten digit recognition.Proceedings of the 12th IAPR International Conference on Pattern Recognition. 3: 77-82.
1997Scholkopf等人就使用支持向量机在(SVM)美国手写数字邮政服务数据库上进行了测试Scholkopf, B. et al. (1997). Comparing support vector machines with Gaussian kernels to radial basis function classifiers. IEEE Transactions on Signal Processing. 45(11): 2758-2765.
1998他们在发表的论文中回顾了应用于手写字符识别的各种方法,并用标准手写数字识别基准任务对这些模型进行了比较,结果显示卷积神经网络的表现超过了其他所有模型LeCun, Y.; Bottou, L.; Bengio, Y. & Haffner, P. (1998). Gradient-based learning applied to document recognition.Proceedings of the IEEE. 86(11): 2278 - 2324.

发展分析

瓶颈

(手写)数字识别仅仅是计算机视觉领域的基本问题之一,它的实用性有限。

未来发展方向

目前计算机视觉领域的算法已经不仅仅可以进行数字识别,其早已可以应用于更复杂的任务。(手写)数字识别主要是作为该领域的基础和基准任务,对算法的表现进行衡量。

Contributor:Yuanyuan Li

简介