陈善雄作者

深度学习碰上古文献,西南大学提出基于CNN的古彝文识别方法

在论文《A Recognition Method of Ancient Yi Character Based on Deep Learning》中,西南大学计算机与信息科学学院陈善雄副教授联合贵州工程应用技术学院彝学研究院的专家,提出了使用深度学习技术识别古彝文的方法。

摘要:作为世界六大古文字之一的古彝文记录下几千年来人类发展历史。针对古彝文的识别能够将这些珍贵文献材料转换为电子文档,便于保存和传播。由于历史发展,区域限制等多方面原因,针对古彝文识别的研究鲜有成果。本文把当前新颖的深度学习技术,应用到古老的文字识别中去。在四层卷积神经网络(Convolutional Neural Network, CNN)的基础上扩展出 5 个模型,然后再利用 Alpha-Beta 散度作为惩罚项对 5 个模型的输出神经元重新进行自编码,接着用两个全连接层完成特征压缩,最后在 softmax 层对古彝文字符特征进行重新评分,得到其概率分布,选择对应的最高概率作为识别的字符。实验表明本文所提方法相对于传统 CNN 模型而言对古彝文手写体的识别具有较高的精度。

1 引言

古彝文作为一种重要的少数民族文字,距今有八千多年历史,可与甲骨、苏美尔、埃及、玛雅、哈拉般 5 种文字并列,是世界六大古文字之一,一直沿用至今,并在历史上留下了许多珍贵的典籍,这些用古彝文书写的典籍具有重要的历史意义和社会价值 [1, 2]。而作为彝文古籍的载体,石刻、崖画、木牍和纸书由于年代久远,往往模糊不清,或者残缺不全,这给古彝文的识别带来了极大的挑战。

图 1:从左至右分别为石刻、木犊、羊皮书写的古彝文。

当前,在古彝文识别方面成果相对较少,主要是国内民族类高校和研究所开展了部分研究。云南民族大学王嘉梅等人曾使用图像分割的方法进行彝文识别,首先在预处理过程中对彝文字符进行细化、归一化、二值化等处理,之后使用模板匹配法进行彝文识别 [3]。朱龙华等人使用组合特征分类的方法进行彝文识别,他们使用的特征有:方向线素特征、笔画密度特征和投影特征,在分类过程中,使用多个分类器投票的方式来确定最终的类别,最终获得了接近 96%的识别率,是典型的特征提取外加分类的方法 [4]。朱宗晓、吴显礼在印刷体规范彝文识别中首先提取周边方向贡献度的特征,并将特征压缩为 128 维,之后使用基于单一特征的三级距离字典匹配算法进行识别,最终在包含 10 种彝文文字的测试集中达到了 99.21%的一次识别率 [5]。在彝文识别研究中,值得一提的是 2017 年 3 月西南民族大学沙马拉毅教授与中央民族语文翻译局共同研制出了彝文手写体识别技术,并开发出相关彝文识别软件,有力地推动彝族文字和文化的保护和发展。

相对于其他文字识别而言,古彝文的书写随意性较大,没有统一的规范,其识别复杂性也随之增加。虽然现有的中英文识别技术获得的较大的发展,但由于历史、区域发展的不平衡,古彝文识别当前研究甚少。而现存的古彝文基本都为手写体,手写体的多样性无疑加大了识别的难度 [3, 6, 7]。因此,古彝文识别是一个极具挑战性的模式识别问题,其主要表现在:

  1. 缺乏成熟的手写样本库。手写样本库是古彝文识别成功的关键因素,直接决定着识别的效果。当前的古彝文研究仍然主要集中在对古彝文文献的整理,没有人专门对古彝文识别进行研究,找不到可用的古彝文手写样本库。

  2. 字符集庞大。古彝文拥有庞大的字符集,2004 年出版的《滇川黔桂彝文字集》就包含着 87000 多个字 [8]。对如此庞大的字符集进行分类是一个比较困难的任务。

  3. 古彝文字体字形变化较多,且没有统一标准,不同地区书写规则不同,体例和格式变化较多,增加了识别难度。

本文采用深度学习中的卷积神经网络对古彝文字符进行识别。在四层卷积神经网络基础上扩展出 5 个模型,然后再利用 Alpha-Beta 散度作为惩罚项对 5 个模型的输出神经元重新进行自编码,接着用两个全连接层完成特征压缩,最后用 softmax 层对古彝文字符进行重新评分,得到其概率分布,选择对应概率最高者作为识别的字符。

2 基础网络结构

本文构造一个四层卷积神经网络用于古彝文字符识别 [9-11],称为模型 M0,如图 2 所示。M0 由 4 个卷积层、2 个全连接层、1 个 softmax 层构成。其符号化描述为如下:

  • Conv:卷积层 (Convolutional layer) 

  • MP:最大池化层(Max Pooling layer)

  • Drop:随机失活层(Dropout layer)

  • Softmax:Softmax 层

  • FC :全连接层 (Fully Connected layer)

例如,Conv(3x3, 64, S2, P1) 其表示大小为 3×3,输出通道数位 64,步长为 2,填充为 1,的卷积层。默认情况下 Conv 的步长为 1,填充为 1,这里主要是为了使得卷积前后特征图大小相等。而 MP 的在默认情况下大小 2×2,步长为 1,填充为 0,此时特征图大小变为前一层的 1/4。

对于模型 M0 而言,符号化描述为: 

Input(64x64x1) – Conv(3x3, 100) - MP – Conv(3x3, 200) – MP - Conv(3x3, 300) – MP - Conv(3x3, 400) – MP – FC(2048) – Drop(0.5) – FC(1024) – Softmax(2162)

图 2:模型 M0

本文以模型 M0 为基础,分别在其各卷积层的前方再额外添加一个 3×3 的卷积层,得到了 4 个模型:M1,M2,M3,M4。所有模型的符号化描述如表 1 所示。M1 在第一个卷积层前添加了一个通道数为 50 的卷积层;M2 在第二个卷积层前添加了一个通道数为 150 的卷积层;M3 在第三个卷积层前添加了一个通道数为 250 的卷积层;M4 在第四个卷积层前添加了一个通道数为 350 的卷积层;而 M5 则将 M1-M4 所有的操作都应用到模型 M0 上,并同时在所有卷积层的前方添加一个 3×3 的卷积层,得到模型 M5,如图 2 所示。

表 1:M0-M5 模型的符号化描述。

 

图 3:模型 M5:红色为额外添加的卷积层。

模型 M5 结构如图 3 所示,网络由 4 个大卷积层、2 个全连接层、1 个 softmax 层构成,并对除 softmax 的其他层的输出使用 ReLU 函数进行激活。其中每个大卷积层由两个连续的 3×3 卷积层以及一个 2×2 最大池化层构成,卷积核的输出通道数以 50 为基数进行递增。为了进一步规范模型描述,我们对 M5 模型包含的四个卷积层进行形式化描述如下:

层次 1: 模型描述

Conv1: Conv1_1(参数量 4K),Conv1_2(参数量 405K),Pool1

通道数: 50,100,100

输出尺寸:32×32

总量: 100

对于第一个卷积层 Conv1,其由卷积层 Conv1_1,Conv1_2,池化层 Pool1 构成,其通道数分别为 50,100,100,该层的输出为 100 张大小为 32×32 的特征图,卷积层 Conv1_1,Conv1_2 的参数数目分别为 4k,405k,整个卷积层 Conv1 的参数数目为 409k。

层次 2 模型描述

Conv2: Conv2_1(参数量 1215K),Conv2_2(参数量 2430K),Pool2

通道数: 150,200,200

输出尺寸:16×16

总量: 200


层次 3 模型描述

Conv3: Conv3_1(参数量 4050K),Conv3_2(参数量 6075K),Pool3

通道数: 250,300,300

输出尺寸:8×8

总量: 300


层次 4 模型描述

Conv4: Conv4_1(参数量 8505K),Conv4_2(参数量 11340K),Pool4

通道数: 350,400,400

输出尺寸:4×4

总量: 400

而对于全连接层与 softmax 层而言,其参数分别为 13107k,2097k,2214k。其中第一个全连接层的随机失活概率为 0.5。整个网络的参数共计约 51442k。

3 Alpha-Beta 散度的自编码结构

单个 CNN 模型的表达能力往往是有限的,不同的模型对于同一个问题的解决能力也不尽相同,有着自己特有的偏好,既要考虑不同模型对于局部类别识别的可信度,又要考虑模型对于整体的分类效果 [12, 13]。本文构建出一种泛化的散度,用 Alpha-Beta 散度作为惩罚项对模型 M0-M5 的输出神经元重新进行自编码 [14, 15],之后利用两个全连接层进行特征压缩,最后使用一个 Softmax 层对古彝文字符进行重新评分 [16],得到其概率分布

假设对于 P 和 Q 是同一个空间中的两个概率密度函数,它们之间的 Alpha-Beta 散度可以表示如下 [15]:

(1),其中

上式满足如下约束条件

(2),其中

为了能够避免在某一值下存在不确定性和奇异性,Alpha-Beta 散度被扩展到覆盖所有的实数集,因此 Alpha-Beta 能更直接地表示为:

(3)其中

(4)

本文对 M0-M5 输出神经元采用 Alpha-Beta 散度作为惩罚项重新进行自编码的学习(如图 4 所示),再通过两次全连接进行特征抽取,目的在于把 M0-M5 模型进行全局优化,提升对古彝文识别的精度。

根据自编码神经网络原理 [17, 18],学习一个函数,使得,即,使用来表示在给定输入为 x 情况下,自编码神经网络中隐藏神经元 j 的激活度。进一步,使

(5)

一般强制约束为,p 是一个稀疏参数,一般取接近于 0 的值,比如 0.05,也就是说,每个隐藏单元 j 的平均激活值接近于 0.05。这里, 为隐藏单元 j 的平均激活值,本文添加一个额外的惩罚项来最优化目标函数,及 Alpha-Beta 散度 [15]。

(6)

因此,全局损失函数为:

 (7),其中,

(8)

这里, 控制稀疏性惩罚因子的权重 则也(间接地)取决于 W,b,因为它是 M0-M5 作为输入层的下一隐藏层神经元 j 的平均激活度,而隐藏层神经元的激活度取决于 W,b。至此,完成对 M0-M5 层神经元的重新编码。

 图 4:基于 Alpha-Beta 散度自编码融合模型 M6。

4 模型训练及样本采集

(1)模型训练

本文将模型的激活函数设置为 ReLU[19],优化算法选择 Adam[20, 21],同时对训练集进行了增量,扩大训练集容量,使模型能够更加充分地学习到图像中的特征。此外为了使模型能够顺利的收敛,这里为每一个卷积层都附加了一个 Batch Norm 层。

虽然 Adam 算法计算高效,方便实现,内存占用少;更新步长和梯度大小无关初始学习率。但在增量后的数据集上其优化效果不明显。当学习率为 0.001 时,损失函数基本无法收敛,而将学习率设置为 0.0001 时,损失函数开始下降,如图 5 所示,因此本文将初始学习率设置为 0.0001。

图 5:模型 M0 不同学习率下的损失函数

(2)样本采集

样本来源于 37 万字的《西南彝志》中选取的 2142 个常用古彝文字符 [22],并邀请彝族老师和学生进行临摹,发放了 1200 份采集表(如图 6 所示),其中彝文正体采集表 800 份、软笔风格采集表 200 份、硬笔风格采集表 200 份,如图 7 所示,共得到了 151200 个字体样本。同时,考虑便于后期处理分析,设计了相应的字体库(如图 8 所示)和古彝文输入法。      

 图 6:采集表扫描样本。

图 7:古彝文硬笔(上)软笔(下)。

图 8:古彝文字体库。

图 9:样本增量。

为了确保模型能够学习到足够多的特征,这里对样本进行增量处理。样本增量流程如图 9 所示,首先对原始样本进行宽度变化和弹性形变,然后进行旋转、缩放、平移的仿射变换,接下来是模糊加噪,最后则是亮度及对比度变换。增量后的样本示例如图 10 所示。 

图 10:增量后的样本。

经过以上处理我们得到了训练集 A,为了更真实地验证本文所提方法的效果,我们从贵州彝学研究院提供的出版物「彝学经书」之「布斗布周数」影印文件中选取了 20 份文件,每份约 150 个字符,作为测试数据。此外本文运用增量技术对训练集 A 进行了样本增量得到了训练集 A2。

实验及分析

本文使用训练集 A2,对 M0-M5 进行了训练,并在测试集 B 上进行了测试。其结果如表 2 所示,模型在测试集 B 上的准确率远高于训练集 A2 的准确率,这表明本文使用的模型通过增量后的训练集学习到了足够多的手写风格,同时表明本文所提出的增量方法是可行且有效的。但在另一方面,在经过了足够多的训练次数后,训练集的准确率仍然没有超过 90%,这表明本文所使用的训练数据集可能存在某些难以识别的样本。对训练数据集进行人工排查后,发现由于原始样本的分辨率过低,在增量变形的过程中,部分样本出现了笔迹丢失,粘连以及过度模糊的情况。如图 11 所示,对于同一个字符,由于过度变形,其几乎完全偏离了这个字的正常书写风格。正是这些过度变形后的样本为模型带入了额外的噪声,使得模型在训练集上表现不佳。

表 2:模型 M0-M5 准确率

图 11:过度变形后的数据。

由表 2 可知,模型 M1 的性能最优,其在测试集 B 上的准确率达到了 92.84%,最差的则为 M5,仅有 90.06%。相对于最简单的模型 M0,在其各层分别添加额外的卷积层,显然有利于模型性能的提升,但随着模型插入位置的向后迁移,其提升幅度逐渐下降。而模型 M5 在每个卷积层前都添加了额外的卷积层,期望达到更好的效果,现实情况却是整个模型性能明显下降。

此外,表 4 展示了不同模型迭代 100 次所消耗的时间,毫无疑问,最简单的模型 M0 所消耗的时间是最少的,仅为 237.27s。而模型 M5 所消耗时间高达 563.40s。同时随着插入卷积层位置的增高,参数也随之增多,相应需要的时间也开始急剧增加。但在 M3 和 M4 与 M2 相比,却出现了时间减少的情况,这主要是由于随着层数的增加,特征图尺寸缩小,其计算量也随之变小。如表 3 所示,与模型 M0 相比,模型 M2 增加的连接数量最多达到了 2.07e9,而模型 M3 与 M4 的增加的连接数量却开始降低,其中模型 M4 增加的连接数量最小仅为 0.65e9。

表 3:模型 M1-M4 与 M0 相比增加的连接数量。

从表 2 和表 4 中可以看出 M1 综合性能最佳,其在仅带入了极少计算量的同时,最大限度提高了模型性能。而 M5 显然是最得不偿失的选择,占用了几乎两倍于 M0 的计算时间,性能不升反降。

表 4:模型 M0-M5 迭代 100 次所消耗的时间(秒)。

通过进一步分析发现,在卷积层后再次进行卷积运算确实有助于模型性能的提升,但底层的效果远远好于高层,同时其在底层进行添加后的代价也是最小的(参数量偏小)。而高层添加卷积层往往效果不是特别明显,但又带来的庞大的计算量(引入了大量的参数)。而模型 M5 在各个层都直接添加卷积的做法,显然在带入大量计算量的同时,也引起了梯度弥散。

为了综合各个模型优势,实验采用了图 3 的模型 M6,以模型 M0-M5 的输出概率分布作为输入,在训练集 A2 上进行训练,并在测试集 B 上进行了测试。其在测试集 B 上的准确率达到了 93.97%,在训练集 A2 上的准确率也达到了 90.63%。

图 12:模型 M0-M6 在测试集 B 上的准确率变化。

进一步实验分析了模型准确率变化情况,图 12 所示为模型 M0-M6 在测试集上随着迭代次数增加的准确率变化(多次实验发现模型迭代次数在 100 到 150 之间准确率趋于稳定,再增加迭代次数准确率没有明显变化)。从图中可以明显的看出模型 M5 明显劣于其他几个模型,其上升最慢,在第 12 个周期才达到最佳准确率 91.06%。模型 M0,M1 在第 8 个周期达到最佳准确率,91.54%、92.84%,而模型 M6 则在第 7 个周期便达到了最佳准确率 92.97%。同时可以看到模型 M0、M1、M2、M6 上升速度较为接近,同时模型 M6 在第 7 个周期开始达到相对平稳的状态,相比于其他模型更早达到平稳状态。总体而言,模型 M6 优于其他模型,这正是 M6 对其他几个模型的输出神经元进行重新编码优化的结果。

结论

本文对古彝文数据集利用深度学习的 CNN 网络进行识别,具有较高的识别精度。特别是采用了 Alpha-Beta 散度作为惩罚项对各个模型的输出神经元重新进行自编码生成的融合的方案,在带入有限计算量的情况下提升整个识别网络的性能,同时能够避免网络层数增加带来的性能下降问题。当前,彝文的识别尚处于起步阶段,其主要针对书写规范的手写体和印刷体进行文本提取,且由于字符库有限,仅限于对常见的彝文进行处理。而针对彝文古籍中古彝文识别的相关研究就非常稀少,可以说这是当前国内外研究的空白。本文把深度学习技术结合到少数民族古文字处理,也对文化保护和发展做出一些有益的探索。另外,考虑到本文对各个模型输出进行重新自编码的融合方案采用了概率分布的方式进行度量,需要大量的样本,而通过彝族同胞手写样本的代价较大,后续拟采用深度学习生成对抗网络(GANs)生成更多的古彝文手写体样本。

参考文献

[1]    朱崇先, "彝文古籍整理与研究",民族出版社, 2008.

[2]    高娟,刘家真, "中国大陆地区古籍数字化问题及对策",中国图书馆 学报, vol. 2013, pp. 110-119, 2013.

[3]    王嘉梅, 文永华, 李燕青, 高雅莉, "基于图像分割的古彝文字识别系统研究",云南民族大学学报:自然科学版,, vol. 17, pp. 76-79, 2018.

[4]    朱龙华,王嘉梅, "基于组合特征的多分类器集成的脱机手写体彝文字识别",云南民族大学学报:自然科学版, vol. 19, pp. 329-333, 2010.

[5]    朱宗晓,吴显礼, "脱机印刷体彝族文字识别系统的原理与实现",计算机技术与发展, vol. 22, pp. 85-88, 2012.

[6]    刘赛,李益东, "彝文文字识别中的文字切分算法设计与实现",中南民族大学学报 (自然科学版), vol. 26, pp. 74-76, 2007.

[7]    吴兵, "基于文字识别角度的规范彝文字分析研究",西南民族大学学报 (人文社科版), pp. 47-53, 2018.

[8]    滇川黔桂彝文协作组, "滇川今注彝文字集",云南民族出版社, 2004.

[9]    X. H. Ren, Y. Zhou, J. H. He, K. Chen, X. K. Yang, J. Sun, "A Convolutional Neural Network-Based Chinese Text Detection Algorithm via Text Structure Modeling," Ieee Transactions on Multimedia, vol. 19, pp. 506-518, Mar 2017.

[10]    M. A. H. Akhand, M. Ahmed, M. M. H. Rahman, aM. M. Islam, "Convolutional Neural Network Training incorporating Rotation-Based Generated Patterns and Handwritten Numeral Recognition of Major Indian Scripts," Iete Journal of Research, vol. 64, pp. 176-194, 2018.

[11]    A. Nasee,K. Zafar, "Comparative Analysis of Raw Images and Meta Feature based Urdu OCR using CNN and LSTM," International Journal of Advanced Computer Science and Applications, vol. 9, pp. 419-424, Jan 2018.

[12]    V. A. Sindagi,V. M. Patel, "A survey of recent advances in CNN-based single image crowd counting and density estimation," Pattern Recognition Letters, vol. 107, pp. 3-16, May 1 2018.

[13]    X. M. Deng, Y. D. Zhang, S. Yang, P. Tan, L. Chang, Y. Yuan, and H. A. Wang, "Joint Hand Detection and Rotation Estimation Using CNN," Ieee Transactions on Image Processing, vol. 27, pp. 1888-1900, Apr 2018.

[14]    C. A,A. S, " Families of Alpha- Beta- and Gamma- Divergences: Flexible and Robust Measures of Similarities," Entropy, vol. 12, pp. 1532-1568, 2010.

[15]    C. A, C. S, and A. S, "Generalized Alpha-Beta Divergences and Their Application to Robust Nonnegative Matrix Factorization," Entropy, vol. 13, pp. 134-170, 2011.

[16]    W. W. Shi, Y. H. Gong, X. Y. Tao, N. N. Zheng, "Training DCNN by Combining Max-Margin, Max-Correlation Objectives, and Correntropy Loss for Multilabel Image Classification," Ieee Transactions on Neural Networks and Learning Systems, vol. 29, pp. 2896-2908, Jul 2018.

[17]    A. Sengupta, Y. Shim, K. Roy, "Proposal for an All-Spin Artificial Neural Network: Emulating Neural and Synaptic Functionalities Through Domain Wall Motion in Ferromagnets," Ieee Transactions on Biomedical Circuits and Systems, vol. 10, pp. 1152-1160, Dec 2016.

[18]    P. Knag, J. K. Kim, T. Chen, Z. Y. Zhang, "A Sparse Coding Neural Network ASIC With On-Chip Learning for Feature Extraction and Encoding," Ieee Journal of Solid-State Circuits, vol. 50, pp. 1070-1079, Apr 2015.

[19]    S. Qian, H. Liu, C. Liu, S. Wu, H. S. Wong, "Adaptive activation functions in convolutional neural networks," Neurocomputing, vol. 272, pp. 204-212, Jan 10 2018.

[20]    A. Arcos-Garcia, J. A. Alvarez-Garcia, and L. M. Soria-Morillo, "Deep neural network for traffic sign recognition systems: An analysis of spatial transformers and stochastic optimisation methods," Neural Networks, vol. 99, pp. 158-165, Mar 2018.

[21]    K. Gopalakrishnan, S. K. Khaitan, A. Choudhary, and A. Agrawal, "Deep Convolutional Neural Networks with transfer learning for computer vision-based data-driven pavement distress detection," Construction and Building Materials, vol. 157, pp. 322-330, Dec 30 2017.

[22]    贵州省彝学研究会, "西南彝志," 贵州民族出版社, 2015.

理论CNN深度学习文字识别
21
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

Dropout技术

神经网络训练中防止过拟合的一种技术

迭代 技术

模型的权重在训练期间的一次更新。迭代包含计算参数在单个批量数据上的梯度损失。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

特征抽取技术

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

您能提供一下论文吗?我也从事古字体识别,希望能拜读一下您的论文。我的邮箱shijiankai@hdu.edu.cn,谢谢