复旦大学提出中文分词新方法,Transformer连有歧义的分词也能学

复旦大学邱锡鹏等研究者提出新型分词方法,只有能 Cover 多个分词标准和最新 Transformer 的方法,才是好的中文分词方法。

从不同的角度看待中文句子,可能使中文分词任务(CWS)的标准完全不同。例如「总冠军」既可以看成独立的词,也能理解为「总」和「冠军」两个词。以前这种情况非常难解决,我们只能定一些字典或规则来加强这些词的划分。

但这些应该是分词模型应该要学的呀,我们不能只关注分词模型在单一标准中的表现,还需要关注不同分词标准中的共同特性。这些共同特性才是模型需要重点学习的,它们能构建更合理的分词结果。

鉴于这一点,复旦大学提出了一个简洁而有效的模型,它能适用于多种中文分词标准。这种模型使用共享的全连接自注意力机制,从而能根据不同的标准进行分词。

研究者已经在八个数据集上测试了这种基于 Transformer 的中文分词,它天然使用了多个分词评价标准。结果说明,与单一标准的学习不同,每个语料上的表现都得到了显著提升。

论文:Multi-Criteria Chinese Word Segmentation with Transformer

论文地址:https://arxiv.org/pdf/1906.12035.pdf

中文分词难在什么地方

和英语不同,中文句子由连续的汉字构成,词语之间缺乏明显的分界线。由于词语被认为是最小的语义单位,因此中文分词任务十分重要。

目前中文分词效果最佳的方法是监督学习算法,它们将中文分词任务视为基于汉字的序列标注问题。在这个问题中,每个汉字都有对应的标签,用于表示词和词之间的分界信息。

然而,构建高质量的带标注中文分词语料面临两个挑战。首先,标注需要语言学专家,成本高昂。其次,现有几个相互冲突的、依据不同语言学角度的分词标准。

例如,对一个句子,不同语料的分词标准是不一样的,它们往往做不到一致性的分割。

表 1:不同的分词标准对比。

如表 1 中所示,给定句子「林丹赢得总冠军」,在三个常用语料中,北大的人民日报语料(PKU)、宾州中文树库(CTB)和微软亚洲研究院(MSRA)使用的标注标准不同。

现在,大部分中文分词方法集中于提升单一分词标准的表现。如果不能完全弄清楚使用不同标准的语料特征,这种研究是浪费资源的。因此,如何高效利用这些(语料)资源依然是一个有挑战性的问题。

以前有解决思路吗?

虽然很大程度上中文分词的难点在于标准不同,但幸运的是它们之间有一种共性知识。从一种分词标准学到的知识可以给其他语料带来收益。

在本论文之前的研究中,作者们考虑了一种多标准的中文分词学习框架。具体来说,它们将每个分词标准视为在多任务学习下的单独任务。在这个多任务学习框架使用一个共享层级,用于提取不同分词标准下都不变特征。同时有一个内部层级用于提取对应不同分词标准的特征,这个内部层也是共享的,因为不同标准经常有重叠的地方。

例如,在表 1 中,CTB 和 MSRA 对词语「林丹」的分词标准是相同的,三个标准对「赢得」的分词是一致的。因此,不同分词标准间是有相同知识的,模型学习它们也是可能的。

基于 Transformer 的多标准中文分词

论文提出了一个简单的模型,模型能够共享来自多个分词标准中的知识,可以应对多标准中文分词任务。由于 Transformer 的启发,研究人员设计了一种完全共享的结构。在模型中,共享编码器用于抽取对分词标准敏感的语境特征(criteria-aware contextual features),而共享解码器则用于预测针对标准而不同的标签(criteria-specific labels)。最终,他们在 8 个不同的分词标准上进行了测试,使用了 5 个简体和 3 个繁体中文的语料。实验说明,模型可以有效提升在多标准分词中文任务中的表现。

模型架构

在邱锡鹏等研究者的论文中,编码器和解码器可以共享所有的分词标准。唯一的不同之处在于他们会采用唯一的指示器作为输入,从而分辨不同的分词标准。如下图 1 展示了研究者提出的方法和以前模型的不同之处。

图 1:单分词标准和多分词标准所采用的架构,其中淡黄色的模块是不同标准所共享的部分。

如下图二展示了多标准中文分词模型的主要架构,其整体分为嵌入层、编码层和解码层。

图 2:研究者提出用于多标准中文分词的模型。

嵌入层:嵌入层的目的即将词映射某个向量,除了标准的字符嵌入,研究者还引入了分词标准嵌入、位置嵌入、Bigram 嵌入三种额外信息。其中分词标准嵌入用来指定期望的输出标准;二元语法嵌入用于加强字符级嵌入的能力,从而实现更强的分词效果;最后的位置编码也就是 Transformer 所需要的位置信息了。

编码层:编码层就是一个 Transformer,主要会通过自注意力机制和 Multi-head Attention 模块抽取中文字的语义信息。

解码层:与标准多标准中文分词不同,新模型的解码层同样是共享的,这主要归功于嵌入层已经将分词标准的相关信息添加到字符上。研究者采用了条件随机场多层感知机两种解码方式,并发现 CRF 效果要好一些,因此将其作为默认解码层。

实验

从 SIGHAN200 到 SIGHAN2008,实验选择了 8 个中文分词数据集。在它们之中,AS、CITYU 和 CKIP 是繁体中文数据集,而 MSRA、PKU、CTB、NCC 和 SXU 是简体中文。除非另有说明,AS、CITYU 和 CKIP 都先从繁体转换成简体。

表 2 提供了 8 个数据集在预处理后的细节信息。整个实验使用标准的评价方法——评价精度、召回率和 F1 分数。

表 2:预处理后的 8 个数据集的具体信息。「Word Types」表示唯一词的数量,「Char Types」表示唯一字的数量。「OOV Rate」表示集外词所占的百分比。

表 5 展示了模型在 8 个测试集上的表现。

表 5:模型在测试集上的表现。P、R、F、OOV 分别表示精度、召回率、F1 分数和不在词表的词语的召回率值。每个数据集上最高的 F1 分数和 OOV 值已加粗。

下图 3 展示了 8 中不同分词标准的二维 PCA 降维结果,它们都是通过本论文的模型学习而来。我们可以看到,8 种分词标准在嵌入空间会映射到 8 个离散的点,这表明每一个分词标准都有所不同。其中 MSRA 与其它分词标准最为不同,可能的原因是 MSRA 将命名实体视为独立的词,这和其它分词标准有很大不同。

图 3:多标准中文分词学到的不同分词基准

理论复旦大学邱锡鹏分词中文分词NLP
4
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

条件随机场技术

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

多任务学习技术

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~