晋耀红作者

语言结构的深层处理是NLP绕不开的坎

01 语言结构是自然语言的固有属性

自然语言是非线性的,有其内在结构的。如中文是“SVO”型语言,可以形成“主语+谓语+宾语”的句子结构,可以有多种短语结构,如:

“花猫逮住了一只耗子” (主谓结构)

“他吃得越来越胖” (述补结构)

不同的句式结构:

“把衣服都洗干净了”(“把”字句)

“把小偷打了一顿” (“把”字句)

“我请他作报告” (兼语句)

“先别告诉他比较好” (形容词谓语句)

不同的句间结构:

“营业员手一扳,转过柜台,竹壳热水瓶摆到绍兴酒坛旁边,漏斗插进瓶口” (流水句,一个小句接一个小句,每个句子都是独立的,共享一个主语。)

嵌套的语言结构。如下例是形容词谓语句,主语是动宾结构。

“先别告诉他比较好” (形容词谓语句)

不同语言间语言结构也有较大差异。如中文经常使用多个小句串在一起构成复杂句,而同样的表达,英文中可以对应为介词短语结构,也可对应为“to +动词“结构。

“经济增长连续四年达到或略高于10%,没有出现明显通货膨胀。 ”

“For four years in a row, economic growth has reached or slightly exceeded 10% without significant inflation. ”

“抓紧制定并实施国家知识产权战略,切实加强知识产权保护。”

“We will move quickly to formulate and implement a national strategy for intellectual property rights to strengthen protection for them.”

不同语言间结构的差异,对机器翻译技术有较大影响。

02 深度学习技术对语言结构处理的局限性

对语言结构的重视程度,在NLP各个发展阶段不尽相同。“理性主义”盛行的时代(1960-1980年左右),语言结构作为研究核心,研究和讨论的最多,在形式语言理论框架下建立不同的形式化模型,如转换生成语法、词汇功能语法、广义短语结构语法、中心词驱动的短语结构语法、依存语法、范畴语法、组合范畴语法等。在“经验主义”统计机器学习的时代(1990-2010年左右),研究重点是语言结构的概率化,出现了基于统计的形式化机制,如HMM(隐马尔科夫模型)、PCFG(概率上下文无关语法)等。当前,基于联结的“经验主义”研究,如 CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆模型)、BERT模型等,则较少涉及语言结构,更多的是神经网络的层级和参数量。记得在读研的时候(1995年左右),NLP研究生都要求选修语言学课程,大家讨论的多是“这个动词短语怎么处理”、“这个结构中文和英文有什么差异”。而现在没人讨论语言结构了,讨论的是“模型有几亿个参数,训练了几百层,涵盖了多少种语言”,希望一个模型搞定所有结构,所有语种。

毫无疑问,深度学习已成为NLP技术的重要技术。深度学习对语言的处理,基本是在向量化的基础上,将语言串转换为线性化的sequence,然后利用相似度等计算,求解sequence的最优解。向量化使用的语言特征,是简单的浅层特征,如词频、TF/IDF权值、位置等,在Attention、LSTM等算法模型中,用到了距离、分层等特征。但就总体而言,深度学习尚无法有效地表示和处理复杂的语言结构,如述补结构、兼语句等。

甚至在学术界,如何对待语言结构,目前尚没有达成共识深度学习大牛Yan LeCun将“结构”称为“必要的恶”,主张使用简单而强大的神经架构执行复杂任务,不需大量针对特定任务的特征工程。而斯坦福教授Chris Manning则将“结构”(structure)称为“必要的善”,积极推动将更多的语言结构融入深度学习。蒙特利尔大学教授Yoshua Bengio认为目前NLP面临最大的问题是“基础语言学习,即共同学习世界模型以及如何用自然语言处理中引用模型”,“在深度学习框架内融合语言理解和推理”。

03 泰岳语义工厂的语言结构处理能力

神州泰岳人工智能研究院,与国内著名高校北京师范大学合作,将符号化语义表示与深度学习技术进行结合,形成了自主知识产权的智慧语义认知技术。智慧语义认知技术,能有效地识别多种语言结构,实现同一意思、不同结构的归一化处理;同时对语言结构的递归嵌套处理,也表现优异。

语言结构的识别

中文的“把字句”、“被字句”等句式结构,本质上是“把、被”这样的介词(或功能词)对句子中词语顺序的一种改变。如“他打碎了花瓶”,我们可以说成“我把花瓶打碎了”,或“花瓶被我打碎了”,而句子的意思基本保持不变。由于“把、被”这样的功能词使用的灵活性,一个句子中经常会有多个功能词出现,对NLP的处理造成了极大的混淆。对带功能词的语言结构的识别能力,是NLP的基本能力。

智慧语义认知技术可以有效地处理带功能词的语言结构,目前我们已经可以有效识别包含5个以上功能词的复杂句子。如下面的句子,其中包含有“由、把、在、中、上”5个功能词,我们可以识别出如图所示结构,图1表示出了每个功能词的层级关系和对句子结构的影响。

“一种由特殊紫外线激活的粘合剂把传感器壳体固定在中支架上。”

图1 一个典型的“把字句”的语言结构识别结果

语言结构的归一化

自然语言中,经常选择不同的词语或使用不同的词语顺序,来表达同样的语义。如下面一组句子,词语的选择和顺序上有较大不同,但表达的是同样的意思。对这样的一组句子,我们希望NLP能识别出同一个语言结构,这称之为语言结构的归一化。

“泰国队大败中国队”

“中国队大败于泰国队”

“泰国队大胜中国队”

“中国队惜败泰国队”

“中国队惜败于泰国队”

“中国队被泰国队干掉了”

“泰国队把中国队干掉了”

智慧语义认知技术,对这组不同的句子,不管其选择的词汇是“大败”,还是“大胜”,也不管句子中是否使用了“把、被”这样的功能词,都可以给实体“泰国队”输出语义角色标注“RB1”,给实体“中国队”输出语义角色标注“RB2”,如图2所示。

图2 一组典型句子的语言结构归一化

3 语言结构的递归处理

语言结构是可以递归嵌套的,在不同的语言中,嵌套的手段各不相同。在英文中,是用“which、that、where”等从句来引出嵌套。但在中文,却没有这样明显的标记,处理起来也更为困难。

“可根据由偏航角速度传感器15 输出的信号测得的偏航角对各个被监测对象的实际空间位置(X(k)、Y(k)、Z(k))的偏航角进行修正。”

例子中,包含3层语言结构嵌套关系

第一层:

可...对各个被监测对象...的偏航角进行修正

第二层: 在“对”前的“根据...”这个条件语块中

由...信号测得的偏航角

第三层: 在“由...信号”这个语块中

偏航角速度传感器15 输出的信号

这种复杂的语言结构嵌套,在书面语中很普遍,特别是在有专业背景的业务场景中,如公安、司法、专利、医疗等场景。

智慧语义认知技术,对这种具有复杂结构的句子,除了利用词语组合、概率统计等表层特征和方法,还加入了远距离的语义约束计算,以及句子序列的切分和层级处理。目前我们已经可以识别出3层以上语言结构的递归嵌套。这一点目前只有智慧语义认知技术能做到。相对来说,目前的深度学习技术,把句子当做一个序列来处理,基本不涉及序列的递归处理,因此,对语言结构的递归处理能力较弱。

04 语言结构的处理是NLP的核心能力

语言结构的处理,是对语言固有属性的认识与挖掘,也理应是NLP的核心能力。对语言结构的有效处理,不仅可以提升NLP在归一化、递归处理等方面的能力,而且可以把包含在复杂语言现象下的语言特征,像剥洋葱一样,一层层打开,这将大大增强NLP的可解释性。

复杂语言结构的处理能力,作为智慧语义认知技术的核心能力,已经成功应用到了公安、金融、司法等多个实际场景中,其处理结果的可解释性,得到了业务用户的普遍认可。智慧语义认知技术在NLP的可解释性上已经有了很好的基础,日前推出的泰岳语义工厂SAAS服务平台,将把这种核心处理能力,与我们在16个行业领域积累的算法、模型开放出来,赋能更多的行业合作伙伴。

作者:晋耀红博士,神州泰岳首席科学家,人工智能研究院院长,北京师范大学教授,博士生导师。

泰岳语义工厂
泰岳语义工厂

泰岳语义工厂是神州泰岳推出的NLP服务的开放SaaS平台,旨在为企业客户和行业应用开发商提供最专业、最快捷、性价比最高的NLP技术和服务。该专栏聚焦于介绍神州泰岳智慧语义认知技术和泰岳语义工厂提供的NLP服务。

http://www.nlpai.cn/
专栏二维码
产业NLP
2
相关数据
来也科技机构

来也科技创办于2015年,由常春藤盟校(Ivy League)机器学习博士团队发起,致力于做人机共生时代具备全球影响力的智能机器人公司。 核心技术涵盖深度学习、强化学习、机器人流程自动化(RPA)、自然语言处理(NLP)、光学符号识别(OCR)、个性化推荐和多轮多模交互等。公司已获得数十项专利和国家高新技术企业认证。 来也科技推出的第一款C端陪伴式机器人“小来”,已通过微信服务了千万级个人用户。 2017年,公司面向企业客户推出B端产品—智能对话机器人平台 “吾来”。 2019年,来也科技与奥森科技合并,携手机器人流程自动化平台“UiBot”,进军RPA+AI市场。

https://www.laiye.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

神州泰岳机构

北京神州泰岳软件股份有限公司(以下简称神州泰岳)是一家"价值引领,创新驱动"的人工智能和大数据、物联网与通信、ICT运营管理协同发展的高科技企业,致力于用信息技术推动行业发展和社会进步。 神州泰岳始创于1998年,2009年首批深交所创业板上市(300002)。公司现有员工3600余人,是"国家规划布局内重点软件企业"、"国家企业技术中心",集团旗下拥有控股公司54家,参股公司26家,国内分公司5家。公司拥有CMMI L5、ITSS二级、系统集成一级、信息安全服务二级、安防一级等资质。公司以科技研发为牵引,打造核心竞争力,拥有软件著作权近1500件,授权专利600余件。

https://www.ultrapower.com.cn
相关技术
推荐文章
暂无评论
暂无评论~