中文语义依存分析—通往中文语义理解的一条蹊径

本文内容由哈工大-北语“语义依存分析”联合项目组提供,哈工大博士生丁宇执笔。


要让机器能够理解自然语言,需要对原始文本自底向上进行分词、词性标注、命名实体识别和句法分析,若想要机器更智能,像人一样理解和运用语言,还需要对句子进行更深一层的分析,即句子级语义分析。


语义依存分析将会是通往语义深层理解的一条蹊径。语义依存分析是指在句子结构中分析实词和实词之间的语义关系,这种关系是一种事实上或逻辑上的关系,且只有当词语进入到句子时才会存在。语义依存分析的目的即回答句子的”Who did what to whom when and where”的问题。例如句子“张三昨天告诉李四一个秘密”,语义依存分析可以回答四个问题,即谁告诉了李四一个秘密,张三告诉谁一个秘密,张三什么时候告诉李四一个秘密,张三告诉李四什么。



上图中表示语义的形式为依存形式,其优势在于形式简洁,易于理解和运用。语义依存分析建立在依存理论基础上,是对语义的深层分析。可分为两个阶段,首先是根据依存语法建立依存结构,即找出句子中的所有修饰词与核心词对,然后再对所有的修饰词与核心词对指定语义关系(后面介绍)。可见,语义依存分析可以同时描述句子的结构和语义信息。


语义分析可以跨越句子的表层结构直接获取深层语义表达的本质,例如句子:“张三吃了苹果”、“张三把苹果吃了”和“苹果被张三吃了”,虽然它们的表述形式不同,但含义相同,吃和张三、吃和苹果之间的语义关系稳定不变,这在词义消歧、信息检索、机器翻译等诸多领域有重要作用。


语义依存树

在对中文语义依存分析的探索中,我们首先尝试了用树结构融合依存结构和语义关系。


依存句法分析示例


在汉语语言学领域,语义的表示体系有很多,相对应的存在不同的语义表示语料库。



哈工大社会计算与信息检索研究中心与北京语言大学合作于2011年推出了BH-SDP-v1(BLCU and HIT SDP)语义依存表示体系,该体系以HowNet的语义框架为基础,同时结合鲁川和袁毓林语义体系,对HowNet中的语义角色进行修剪形成的依存语义体系,并对中文宾州句法树库中的10,068个句子进行了标注。BH-SDP-v1定义了123种语义关系,外加20种句法关系。在关系类型上,针对汉语句式特点定义了反关系和间接关系,分别用于描述动词修饰名词以及核心词是动词名词化形式两种情况。


该标注语料由车万翔等人经过整理后在SemEval-2012上组织了国际公开评测。参与评测的有中科院计算所、南京大学、哈工大深圳研究所等五个组织,共提交9个结果。评价指标为只考虑结构不考虑关系标签的UAS和既考虑结构也考虑关系标签的LAS。评测结果为表格所示


该语料库现在看来存在如下几个问题,有些语义关系彼此易混淆;语义关系数量太大,有些关系在标注语料中出现次数很少;句子全部来自新闻,涵盖的语言现象有限;依存树结构,刻画语义不全面。


语义依存图

对于语义依存树表示体系存在的问题,我们采用的解决方案是用语义依存图分析代替语义依存树分析。形式上类似于依存语法,但必要时突破树形结构(BH-SDP-v2)。这样的突破使得对连动、兼语、概念转位等汉语中常见的现象的分析更全面深入。



语义依存树与语义依存图的区别,形式化描述如下表格所示。





BH-SDP-v2在鲁川定义的汉语意合网络语义关系体系的基础上,借鉴其语义单位层级划分、语义组合的思想及语义关系标签集合,同时结合依存语法的由中心词驱动、易于提取词之间的关系等特点,构建了一套脉络更加清晰的语义关系体系。BH-SDP-v2压缩了语义关系类型的数量,并重新组织并缩减语义关系,将关系分为主要语义角色、事件关系、关系标记,从而减少不必要的类间关系混淆。


完整的语义关系集合如下表所示。



语义关系在保留了一般语义关系、反关系基础上,我们定义了嵌套关系,用来标记一个事件降级充当了另一个事件的成分,如句子“爷爷看见小孙女在操作计算机”,划线部分为一个降级事件充当动词“看见”的“客事”角色dCont。嵌套关系标注为“d+角色”。


我们标注了语义依存图语料库,包含10068句新闻语料和15000句课文句子。新闻句子平均长度是31个词课本句子平均长度是14个词。


语义依存与依存句法的区别

说到依存结构,不得不提一个流行的自然处理任务,即句法依存分析。虽然两者都借用了依存结构,但是依存句法分析与语义依存分析之间具有显著的区别。句法依存按照句法结构功能建立依存关系并为依存结构标注句法关系,更强调介词、助词等对句法结构划分的作用。而语义依存如前所说,注重实词之间语义事实上或逻辑上的关系。而句法的结构往往随着字面词语的变化而不同,相反语义则能够跨越句子表层的变化直达语义的本质。



以上两句语义相同,而表达形式不同,导致句法结构不同


上例同时验证了句法结构不同时,语义关系可能相同。相反亦如此。句法结构相同时,语义关系可能不同。例如吃食堂和买衣服,我去过了和北京去过了。正因如此,句法和语义之间有着不可逾越的鸿沟,两则形似而实异。


语义依存与语义角色标注的区别

语义角色标注是一种流行的语义分析的任务,语义角色标注同样能够转化为依存结构。语义角色标注是给定一个句子,分析该句中特定动词的论元结构,找出和特定动词搭配的论元并分析其语义角色。角色分为施事、受事、与事等核心角色和地点、时间、行为方式等附属角色。语义角色标注是浅层语义分析的一种主要实现方式,是深层语义分析的简化和基础。


从另一个角度比较语义角色标注和语义依存分析,语义角色标注的自动分析需要以句法分析为基础,句法分析的错误会带入到语义角色标注中。而语义依存分析,直接在基本语言处理基础上一步走到比语义角色标注更深层的语义分析阶段,这个过程在一步中完成将极大减少错误的级联。这表明语义依存分析的另一个优势。



注:


 1)我们利用语义依存图语料库在SemEval2016平台组织了中文深层语义依存任务,目前任务正在进行中,预计9月15日发布训练数据,详细内容请登录[http://alt.qcri.org/semeval2016/task9/,欢迎感兴趣的朋友加入我们,一起在评测中探索前进](http://alt.qcri.org/semeval2016/task9/,欢迎感兴趣的朋友加入我们,一起在评测中探索前进。)。 


2)相信关注LTP的朋友们应该发现了,LTP在线演示已经增加了语义依存树的分析,http://www.ltp-cloud.com/demo/ 。在下图的例子中,句法依存中,认为“昨日”和“在天津”都是“视察”的状语,但是在语义依存分析结果中,会明确标注“昨日”是时间(Time),而“在天津”是地点(LOC),同时地点关系直接标注在实词“天津”而不是介词“在”上。另外一个比较大的不同在于,句法依存中,“总理”是修饰“李克强”的,他们之间是修饰(ATT)关系。但是在语义依存中,会更准确的标注他们之间是等价(eEqu)关系,这更符合语义。



本文来源于哈工大SCIR

原文链接点击即可跳转


本文由机器之心经授权转载自哈工大SCIR,禁止二次转载。

入门
登录后评论
暂无评论
暂无评论~
返回顶部