基于协同过滤的中文零指代消解方法

作者: 哈工大SCIR 尹庆宇

1 前言

随着计算机技术和互联网的迅速发展,社会的信息化程度已经发展到一个全新的阶段,信息的传递与交流已成为现代社会生活运作的重要基础,各种信息呈爆炸式增长。人们在享受海量信息提供便利的同时,也面临着如何从浩如烟海的信息中找到自己所需内容的困境。一些集成了自然语言处理成果的技术,如信息检索(Information Retrieval)、信息抽取(Information Extraction)、问答(Question Answering)、自动文摘(Automatic Summarization)和机器翻译(Machine Translation)等系统,能够帮助用户更为方便快捷准确地获得自己所需的内容。在这些系统中,自然语言都扮演着很重要的角色。比如在问答系统中,用户的问题都是通过自然语言的形式提出的,而如何能够让机器正确有效地理解这些问题就成了重中之重。中文的零指代,作为指代现象中的一种,能够更好地帮助机器理解自然语言。

2 任务简介

指代消解是信息抽取不可或缺的组成部分。在信息抽取中,由于用户关心的事件和实体间语义关系往往散布于文本的不同位置,其中涉及到的实体通常可以有多种不同的表达方式,例如某个语义关系中的实体可能是以代词形式出现的,为了更准确且没有遗漏地从文本中抽取相关信息,必须要对文章中的指代现象进行消解。指代消解不但在信息抽取中起着重要的作用,而且在机器翻译、文本摘要和问答系统等应用中也极为关键。

中文的零指代是指代现象中的一种,是指代现象中的一种特殊情况。它是指在篇章中,读者能够根据上下文的关系推断出来的部分经常被省略,被省略的部分在句子中又承担相应的句法成分,并且回指前文中的某个语言单位。被省略掉的部分称为零指代项或者零代词,被指向的语言单位被称为先行语。图1是一个中文零指代现象的示例。在这里,“”表示一个零代词,它的先行语为“苹果”。

图 1: 中文零指代示例


3 我们的方法

3.1 动机


现有的中文零指代消解系统中,都统一采用了单候选模型(single candidate model)。在这些模型中,当我们对一个零代词进行消解时,每次都会从其候选先行语中选择一个组成词对进行判断。这种方法有一个很明显的弊端:当我们使用单候选模型时,由于每次只会根据一个候选先行语进行判断,这样就忽略了不同候选先行语之间的关系。也就是说,这种模型只能判断当前的候选先行语是否适合消解零代词,而不能从整体出发,在所有候选词中挑选出最适合的一个。为了解决上述问题,我们提出了一种基于协同过滤的中文零指代消解算法。我们将零指代消解的过程转化为推荐,将候选先行语推荐给零代词。

3.2 方法设计


同已有的中文省略恢复系统(Zhao et al, Kong et al, Chen & Ng 2015) 类似,我们的基于协同过滤的中文零指代消解算法也分为两个步骤:零代词的可消解性识别和零代词的消解。图2是本方法的整体流程图。对于一个给定的零代词,我们首先通过一个可消解零代词分类器对该零代词是否为可消解零代词进行判断。如果这个词是可消解的零代词,我们就进入零代词消解的步骤,为其寻找先行语。在这个步骤中,类似单候选模型,我们对每个候选先行语和零代词的消解概率进行计算。得到这些概率后,我们将其作为零代词对候选先行语的倾向程度,然后利用这个倾向程度同候选先行语之间的关联性进行协同过滤的推荐步骤。我们通过协同过滤算法对零代词同每个候选先行语之间的倾向程度进行重新计算,然后寻找出一个倾向性最大的候选先行语作为最终的结果来消解零代词。

图2: 基于协同过滤的中文零指代消解方法流程图

对于可消解零代词识别的步骤,我们参考了 (Chen & Ng 2013, Zhao et al) 的系统,采用J48决策树机器学习算法对一个给定的零代词是否能够被消解进行判断。表1是我们使用的特征向量集合。在这个表中,表示零代词,分别是零代词前后出现的词语。我们用表示的第一个公共祖先,分别表示的父亲节点。之前的第一个动词节点。值得注意的是,在这里我们提取了及物动词这样一个特征。我们通过统计的方式获得了所需要的及物动词词表,提取方式如下:首先,我们对文档中的每个动词进行统计,如果它有一个NP或者IP节点作为兄弟节点,我们就认为它有了一次及物使用。如果一个动词有一次及物使用,我们就对其计数加一。相反,如果该动词出现了非及物使用,我们就将其计数减去三。最后,经过对所有文本的计算,我们将计数大于零的动词抽取出来,这些动词就组成了我们统计的可及物动词表。

表1: 特征向量

经过对特征的提取,我们可以从训练语料中训练出一个分类器,该分类器能够识别可消解的零代词。当一个零代词被识别为可消解零代词后,我们就进行下一步,零代词的消解工作。在零代词消解的步骤中,我们首先要抽取出所有的候选先行语。对于出现在零代词前两句之内的所有NP短语,如果其是最大NP短语(maximal NPs)或者是修饰性的NP短语(modifier NPs)我们都将其视为候选先行语。然后,我们要对每个先行语同零代词的可消解概率进行度量。

类似 (Chen & Ng 2013),我们采用机器学习的方法得到每个候选先行语的消解概率。我们从零代词本身,候选先行语本身和零代词同候选先行语之间关系,这三个方面提取特征。然后,通过训练,我们可以得到一个零代词消解分类器,当输入一个零代词和其候选先行语时,能够得到它们的消解的概率。当我们得到这些消解概率后,就可以利用它们,结合协同过滤的方法进行先行语的选择。

本文中,我们采用了基于物品的协同过滤算法,item-based collaborative filtering algorithm (Sarwar et al),选取了其中最为经典的“简单加权法 (simple weighted average)”来进行推荐过程。假设我们有若干物品,并知道这些物品彼此之间的关联程度(相似度),那么一个用户对一件物品的打分就可以通过其他相似物品通过加权平均的算法来近似获得。也就是说,这个方法能够利用物品之间彼此的相似度,关联度来更好地衡量用户对一件物品的倾向性。

对于零代词消解而言,我们假设每个候选先行语彼此之间是不独立的,是有关系的。也就是说,不同候选先行语之间是可以互相影响的,当我们从中选取最合适的先行语的过程中,应该更多地从全局的角度考虑最适合的先行语,而不是仅仅像单候选模型那样,只考虑局部信息。因此,当我们利用协同过滤算法进行候选先行语的选择,我们的模型在计算概率时,同时考虑到如下信息:(1) 可消解零代词 ; (2) 所有的候选先行语集合 ; 和 (3) 当前先行语 对的消解概率。我们通过如下公式来计算,这里 表示着通过上文提到的零代词消解分类器得到的的消解概率, 是候选先行语 和 候选先行语的相似度。我们引入了一个变量来度量原始消解概率在最终消解概率中的重要性。通过调节 ,当 时我们获得了最好的结果。

(1) 

这里,两个候选先行语之间的相似度是利用其词向量之间的cosine相似度进行度量的,如下述公式:

(2) 

在公式中,“”表示两个向量的乘积,  和表示着候选先行语的词向量。

假设是一个含有个词的候选先行语, 表示为。为了更好地从语义的角度来度量两个不同的先行语之间的相似度,我们首先要将每个先行语之中的词表示为低维度、连续的实值向量,这种向量被称为“词嵌入”(word embedding)。在实验中,我们定义为100维的中文词向量,那么 可以通过如下方式计算:

(3) 

通过这种方式,我们能够从整体出发,对零代词和其每个候选先行语的消解概率进行重新的度量,然后选取一个消解概率最大的候选先行语,将其作为最终结果“推荐”给零代词,这样就完成了对零代词的消解。

4 总结

传统的中文零代词消解工作中,都采用了单候选的先行语选择策略,并没有对先行语之间的关系进行建模。而单个先行语带来的信息是有限的,这种单候选模型只能从局部最优的角度选取先行语,并不能从整体出发而给出答案,因此是不可靠的。为了避免这种情况的发生,更好地将先行语之间的彼此关系建模到消解模型中,我们提出了一种基于协同过滤的中文指代消解算法,利用词向量对候选先行语之间的关系进行建模,然后利用推荐算法从整体最优的角度出发,选择最为合适的先行语。


References

  • Chen Chen and Vincent Ng. 2013. Chinese zero pronoun resolution: Some recent advances. In EMNLP, pages 1360–1365, Morristown. 
  • Chen Chen and Vincent Ng. 2015. Chinese zero pronoun resolution: A joint unsupervised discourse-aware model rivaling state-of-the-art resolvers.ACL.
  • Fang Kong and Guodong Zhou. 2010. A tree kernel-based unified framework for chinese zero anaphora resolution.EMNLP.
  • Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl. 2001. Item-based collaborative filtering recommendation algorithms. In Proceedings of the 10th international conference on World Wide Web, pages 285–295.ACM.
  • Shanheng Zhao and Hwee Tou Ng. 2007. Identification and resolution of chinese zero pronouns: A machine learning approach. In EMNLP-CoNLL, volume 2007, pages 541–550, Morristown. ACL.

本文来源于哈工大SCIR

原文链接点击即可跳转

哈尔滨工业大学社会计算与信息检索研究中心

产业零指代入门NLP文本抽取文本分类