作者: Wei Wu、Yuxian Meng等

横扫13项中文NLP任务:香侬科技提出汉语字形表征向量Glyce+田字格CNN

最近,香侬科技发表研究,提出了一种汉语字形向量 Glyce。该研究基于汉字的进化过程,采用多种汉字古今文字和多种书写风格,专为中文象形字符建模设计了一种 CNN 架构——田字格 CNN。Glyce 在 13 个(几乎所有)中文 NLP 任务上达到了当前最佳性能。

汉字是一种象形文字,可以被分解为更小、更基础的音义结合体:象形(即对象的图像化表述,如「亻」、「日」、「木」)和形声(用于发音,如「晴」中的「青」)。汉朝的《说文解字》利用图形化的部首来索引汉字,这一传统一直沿用到今天。许多汉字由图像演化而来(如图 1 所示),因此汉字的语素中编码着丰富的语义信息。

图 1:许多汉字由图像演化而来(图源:维基百科)

分布式表征(Mikolov et al., 2013; Pennington et al., 2014)的出现为表征文本语义提供了一种简洁的方式,并已广泛应用于中文自然语言处理。主流深度学习算法大多使用词或字符作为基础语义单元(Zheng et al., 2013; Chen et al., 2015b,a; Xu et al., 2016; Cai and Zhao, 2016),在词/字符层面学习嵌入表征。然而字形表征(Glyph representation)却很少被使用到。

很明显,考虑汉语图形信息应该有助于语义建模。最近的研究间接地支持这一点:偏旁部首被证明在许多语言理解任务中有用(Shi et al., 2015; Li et al., 2015b; Yin et al., 2016; Sun et al., 2014; Shao et al., 2017)。研究表明,使用五笔编码技术可以提高中英机器翻译的性能(Tan et al., 2018)。虽然部首和五笔表征一定程度上编码了一些关于字符结构的信息,有助于构建更好的字符表征,但部首和五笔表征都是用 ID 编码的,因此无法触及更深的汉语图形信息。

近年来,一些研究者尝试在字符的视觉特征上应用基于 CNN 的算法。不幸的是,他们的研究没有实现持续的性能提升(Liu et al., 2017; Zhang and LeCun, 2017),一些研究甚至得出了负面结果(Dai and Cai, 2017)。例如,Dai 和 Cai(2017)在汉字图像上运行 CNN 来获取汉字表征,然后在下游的语言建模任务中使用这些表征。他们发现,字形的加入实际上降低了性能,基于 CNN 的表征无法为语言建模提供额外的有用信息。Liu 等人(2017)和 Zhang、LeCun(2017)在文本分类任务上利用相似的策略测试了这一思路,结果模型性能只在非常有限的几种情况下有所提升。

研究者认为之前基于 CNN 的模型 (Dai and Cai, 2017) 得到消极结果的原因如下:1)未使用正确的文字版本:汉字系统经过了很长的进化过程,如图 2 所示。最著名的版本包括甲骨文(公元前 2000 年 - 公元前 300 年)、隶书(公元前 200 年 - 公元 200 年)、篆书(公元前 100 年 - 公元 420 年)、魏碑(公元 420 年 - 公元 588 年)等。这一文字进化过程是遵循特定模式的。最初的汉字易于绘制,然后逐渐转变成容易书写。此外,汉字的象形性、具象性逐渐弱化。

目前最广泛使用的汉字版本是简体中文,这种字体易于书写,但不可避免地丢失了大部分象形信息。这导致了仅使用简体中文训练的模型性能不好。2)未使用合适的 CNN 结构:与大小为 800*600 的 ImageNet 图像不同,汉字图像的大小要小得多(通常是 12*12)。这就需要不同的 CNN 架构来捕捉字符图像的局部图信息。3)之前的研究未使用调节函数(regulatory function):与包含数千万数据点的 ImageNet 图像分类任务不同,汉字仅有约一万个。因此辅助训练目标对防止过拟合、提升模型泛化能力非常关键。本研究使用图像分类作为辅助训练目标。

图 2:汉字的进化过程(图来自网络)。

在本文中,研究者提出了 Glyce,一种汉字表征字形向量。他们将汉字当作图像,并使用 CNN 来获取它们的表征。作者使用以下技术解决了上面提到的问题:

  • 研使用历史汉字和当代汉字(如青铜器铭文、隶书、篆书和繁体中文等)以及不同的书写风格(如草书)来丰富字符图像的象形信息。

  • 研究者使用了 Tianzige-CNN (田字格) 架构,该架构专为中文象形字符建模而设计。

  • 通过添加图像分类损失函数,研究者利用多任务学习方法增强了模型的泛化能力。

论文:Glyce: Glyph-vectors for Chinese Character Representations 

论文地址:https://arxiv.org/abs/1901.10125

摘要:直观上来看,针对中文等语素文字的 NLP 任务应该受益于这些语言中的字形信息。然而,由于字形中缺乏丰富的象形信息,以及标准计算机视觉模型在字符数据上的泛化能力较差,现在还未找到有效利用字形信息的方法。

本文提出了汉字表征字形向量 Glyce,填补了这一空白。本文有三大创新:1)使用了古代汉字(如青铜器铭文、篆文、繁体中文等)来丰富文字中的象形证据;2)设计了适合汉字图像处理的 CNN 架构;3)将图像分类作为多任务学习设置中的辅助任务,以提高模型的泛化能力。

我们首次展示了基于字形的模型能够在很多中文 NLP 任务中持续超过基于单词/字符 ID 的模型。通过 Glyce,我们在 13 个(几乎所有)中文 NLP 任务上达到了当前最佳性能,包括字符级语言建模、词级语言建模、中文分词、命名实体识别词性标注、依存句法分析、语义角色标注、句子语义相似度、句子意图识别、中英机器翻译、情感分析、文档分类和语篇分析任务。

3 Glyce

3.1 使用历史汉字

表 1:Glyce 使用的历史汉字和书写风格。

3.2 Glyce 的 Tianzige-CNN 架构

图 3:Glyce 的 CNN 架构。

表 2:Glyce 中的 tianzige-CNN 架构。

图 4:如图所示,田字格是 2 × 2 的结构,其模式表明汉字偏旁部首的排列以及汉字的书写笔画。

图 6:组卷积机制。

图 5:Glyce 字符嵌入和词嵌入概览。

4 实验结果

该研究在语言建模、命名实体识别词性标注等 13 个任务上对 Glyce 的性能进行了测试,并与其它模型做了对比。

4.1 任务 1:字符级语言建模

表 3:字符语言建模任务结果。

4.2 任务 2:词级语言建模

表 4:词级语言建模的 ppl。

4.3 任务 3:命名实体识别

4.4 任务 4:中文分词

4.5 任务 5:词性标注

4.6 任务 6:依存句法分析

4.7 任务 7:语义角色标注

4.8 任务 8:句子语义相似度

4.9 任务 9:意图识别

4.10 任务 10:中英机器翻译

4.11 任务 11:情感分析

4.12 任务 12:文档分类

4.13 任务 13:语篇分析

理论词向量中文字向量NLP
5
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

多任务学习技术

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

推荐文章
暂无评论
暂无评论~