2017/08/11 11:38

揭开知识库问答KB-QA的面纱2·语义解析篇

作者丨刘大一恒
学校丨四川大学博士生

本期我们从传统方法之一的语义解析（有时也被称为语义分析）开始，以一个经典的语义解析 baseline 方法为例，介绍语义解析如何进行 KB-QA。该方法来自斯坦福 Berant J, Chou A, Frostig R, et al. 的Semantic Parsing on Freebase from Question-Answer Pairs，文章发表于 2013 年的 EMNLP 会议。

1. 什么是语义解析

在揭开知识库问答KB-QA的面纱1·简介篇中我们谈到，知识库 Freebase 由大量的三元组组成，并且这些三元组的实体和实体关系都是形式化的语言，比如 (BarackObama, PlaceOfBirth, Honolulu)。

给定一个自然语言的问题：“Where was Obama born？”我们面临的第一个挑战，就是如何建立问题到知识库的映射？

语义解析 KB-QA 的思路是通过对自然语言进行语义上的分析，转化成为一种能够让知识库“看懂”的语义表示，进而通过知识库中的知识，进行推理（Inference）查询（Query），得出最终的答案。

简而言之，语义解析要做的事情，就是将自然语言的问题，转化为一种能够让知识库“看懂”的语义表示，这种语义表示即逻辑形式（Logic Form）。

2. 什么是逻辑形式

为了能够对知识库进行查询，我们需要一种能够“访问”知识库的逻辑语言，Lambda Dependency-Based Compositional Semantics (Lambda-DCS) 是一种经典的逻辑语言，它用于处理逻辑形式（在实际操作中，逻辑形式会转化 SPARQL query，可以在 Virtuoso engine 上对 Freebase 进行查询）。如果我们把知识库看作是一个数据库，那么逻辑形式（Logic Form）则可以看作是查询语句的表示。

我们用表示一个逻辑形式，用表示知识库，表示实体，表示实体关系（有的也称谓语或属性）。简单而言，逻辑形式分为一元形式（unary）和二元形式（binary）。对于一个一元实体，我们可以查询出对应知识库中的实体，给定一个二元实体关系，可以查到它在知识库中所有与该实体关系相关的三元组中的实体对。并且，我们可以像数据库语言一样，进行连接 Join，求交集 Intersection 和聚合 Aggregate（如计数，求最大值等等）操作。具体来说，逻辑形式有以下形式和操作：

有了上面的定义，我们就可以把一个自然语言问题表示为一个可以在知识库中进行查询的逻辑形式，比如对于问句“Number of dramas starring Tom Cruise?”它对应的逻辑形式是：

当自然语言问题转化为逻辑形式之后，通过相应的逻辑语言（转化为 SPARQL query）查询知识库就可以得到答案。那么，语义解析要如何把自然语言问题正确地转化为相应的逻辑形式呢？

3. 语义解析 KB-QA 的方法框架

语法分析的过程可以看作是自底向上构造语法树的过程，树的根节点，就是该自然语言问题最终的逻辑形式表达。整个流程可以分为两个步骤：

1. 词汇映射：即构造底层的语法树节点。将单个自然语言短语或单词映射到知识库实体或知识库实体关系所对应的逻辑形式。我们可以通过构造一个词汇表（Lexicon）来完成这样的映射。

2. 构建（Composition）：即自底向上对树的节点进行两两合并，最后生成根节点，完成语法树的构建。这一步有很多种方法，诸如构造大量手工规则，组合范畴语法（Combinatory Categorical Grammars，CCG）等等，而我们今天要讲的这篇论文，采用了最暴力的方法，即对于两个节点都可以执行上面所谈到的连接 Join，求交 Intersection，聚合 Aggregate 三种操作，以及这篇文章独创的桥接 Bridging 操作（桥接操作的具体方式稍后会提到）进行结点合并。显然，这种合并方式复杂度是指数级的，最终会生成很多棵语法树，我们需要通过对训练数据进行训练，训练一个分类器，对语法树进行筛选。

自然语言转化为逻辑形式的流程如下图所示：

上图红色部分即逻辑形式，绿色部分 where was Obama born 为自然语言问题，蓝色部分为词汇映射（Lexicon）和构建（Composition）使用的操作，最终形成的语义解析树的根节点即语义解析结果。

接下来，我们还剩最后三个待解决的问题，如何训练分类器？如何构建词汇表？什么是桥接操作？

训练分类器

分类器的任务是计算每一种语法分析结果 d（Derivation）的概率，作者通过 discriminative log-linear model 进行 modeling，使用 Softmax 进行概率归一化，公式如下：

其中 x 代表自然语言问题，是一个从语法分析结果和 x 中提取出来的 b 维特征向量（该特征向量包含了构造该语法树所有操作的对应特征，每种操作的具体特征之后会提到），是 b 维的参数向量。

对于训练数据问题-答案对，最大化 log-likelihood 损失函数，通过 AdaGrad 算法（一种动态调整学习率的随机梯度下降算法）进行参数更新。

可以看出特征向量的训练实际上是一种弱监督训练（准确的说是一种远程监督，DistantSupervison）。

构建词汇表

词汇表即自然语言与知识库实体或知识库实体关系的单点映射，这一操作也被称为对齐（Alignment）。我们知道自然语言实体到知识库实体映射相对比较简单，比如将“Obama was also born in Honolulu.”中的实体 Obama 映射为知识库中的实体 BarackObama，可以使用一些简单的字符串匹配方式进行映射。

但是要将自然语言短语如“was also born in”映射到相应的知识库实体关系，如 PlaceOfBirth，则较难通过字符串匹配的方式建立映射。怎么办呢？没错，我们可以进行统计。直觉上来说，在文档中，如果有较多的实体对（entity1，entity2）作为主语和宾语出现在 was also born in 的两侧，并且，在知识库中，这些实体对也同时出现在包含 PlaceOfBirth 的三元组中，那么我们可以认为“was also born in”这个短语可以和 PlaceOfBirth 建立映射。

比如（“Barack Obama”，“Honolulu”）,（“MichelleObama”，“Chicago”）等实体对在文档中经常作为“was also born in”这个短语的主语和宾语，并且它们也都和实体关系 PlaceOfBirth 组成三元组出现在知识库中。

有了这样的直觉，我们再来看看这篇文章是怎么构建词汇表的，利用 ReVerbopen IE system 在 ClueWeb09（注：该数据集由卡耐基梅隆学校在 09 年构建，还有一个 12 年的版本，ClueWeb12）上抽取 15 millions 个三元组构成一个数据集，如 (“Obama”, “was also born in”, “August 1961”)，可以看出三元组的实体和关系都是自然语言的形式，取出其中的一个三元组子集，对里面的每一个三元组的主语实体和宾语实体通过字符匹配的方式替换为知识库的实体，并使用 SUTime 对数据进行归一化。

如(“Obama”, “was also born in”, “August 1961”) 经过预处理后转化为 (BarackObama, “was also born in”, 1961-08)。

接着我们对每一个三元组中的自然语言短语两边的实体对（entity1，entity2）进行统计，注意，由于自然语言短语 r1 知识库实体关系 r2 的对应关系是多对多的，比如“was also born in”可能对应 PlaceOfBirth，也可能对应 DateOfBrith，我们需要对每一个 r1 进行区分，我们可以通过知识库查询到每一个实体的类型（type），比如 1961-08 的类型是 date 而 honolulu 的类型是 place，我们对 r1 两边的实体类型进行查询可以得到主语实体的类型 t1 和宾语实体的类型 t2，因此 r1 可以进一步表示为 r[t1,t2]，我们对其所在三元组两边的实体进行统计，得到实体对集合F(r[t1,t2])。

同样的，通过对知识库进行统计，对每一个知识库三元组中的实体关系 r2 也统计其两边的实体，可以得到实体对集合 F(r2)，通过比较集合 F(r[t1,t2]) 和集合 F(r2) 类似 Jaccard 距离（集合交集元素数目比集合并集元素个数）这样的特征来确定是否建立词汇映射，如下图所示：

图中绿色字体为 r1，蓝色字体为 r2。作者定义了词汇映射操作的三种特征（用于训练分类器），对齐特征（Alignmentfeatures），文本相似度特征（Textsimilarity features），和词汇化特征（Lexicalizedfeatures），具体内容如下表所示：

其中文本相似度特征中的 s2 指 r2 的 freebase name。

在实际使用中，我们可以通过词性标注（POS）和命名实体识别（NER）来确定哪些短语和单词需要被词汇映射（Lexicon），从而忽略对一些 skippedwords 进行词汇映射。并且，作者还建立了 18 种手工规则，对问题词（questionwords）进行逻辑形式的直接映射，如“where，how many”映射为 Type.Location 和 Count。

桥接操作

完成词汇表的构建后，仍然存在一些问题。比如，对于 go，have，do 这样的轻动词（light verb）难以直接映射到一个知识库实体关系上，其次，有些知识库实体关系极少出现，不容易通过统计的方式找到映射方式，还有一些词比如 actress 实际上是两个知识库实体关系进行组合操作后的结果 (actor ∩ gender.female)。

作者最后提到这个问题有希望通过在知识库上进行随机游走 Random walk 或者使用马尔科夫逻辑 Markov logic 解决，因此我们需要一个补丁，需要找到一个额外的二元关系来将当前的逻辑形式连接起来，那就是桥接。

这里举个具体的例子，比如“Which college did Obama go to?” 假设“Obama” 和 “college” 可被词汇映射映射为 BarackObama 和 Type.University，这里"go to" 却难以找到一个映射，事实上，这里我们需要去寻找一个中间二元关系（即Education）使得上面的句子可以被解析为 (Type.University ∩ Education.BarackObama)，如下图所示：

具体来说，给定两个类型（type）分别为 t1 和 t2 的一元逻辑形式 z1 和 z2，我们需要找到一个二元逻辑形式 b，在 b 对应的实体对类型满足 (t1,t2) 的条件下生成逻辑形式，这就是桥接，由于这里有类型的限制，所以我们可以在知识库中相邻的逻辑关系中暴力搜索符合条件的二元关系 b。（注：在论文中还提到了另外两种需要进行桥接的场景，这里我们则不再赘述）。

同样的，作者也为桥接操作定义了相应的特征（为了分类器的训练），定义如下表所示：

对于构建（composition）的其他三种操作，连接Join，求交集Intersection和聚合Aggregate，作者也定义了相应的特征（为了分类器的训练），如下表所示：

至此，语法树的构建，分类器的训练，和分类器的输入——特征向量的构造方式我们都已经介绍完毕。最后我们再简单的介绍一下实验和实验结果。

4. 实验结果

由于语义解析树的构建方式是指数级的，因此，在训练和测试的时候，作者执行了标准的自底向上的集束分析器（Beam-based bottom-up parser）。在这篇论文之前，KB-QA 流行的数据集是由 Cai and Yates (2013) 构建的 Free917，该数据集只包含了 917 组问题答案对，因此，作者构建了一个更大的 benchmark 数据集 WebQuestion，包含了 5810 组问题答案对，该数据集的构建方式我在揭开知识库问答 KB-QA 的面纱·简介篇中进行了简单介绍。

作者测试了仅使用Alignment和Bridging以及都使用下的正确率，如下表所示：

作者该论文的语义解析器 Sempre 进行了开源，感兴趣的朋友可以查阅该项目资料。

我们可以看出传统的语义解析方法还是存在大量的手工规则，也涉及到了一些 linguistic 的知识，对于没有传统 NLP 先验知识的朋友可能理解起来会稍微困难一些。

最后，让我们再思考一下该方法有些什么缺陷？

首先，词汇映射是整个算法有效（work）的基点，然而这里采用的词汇映射（尤其是关系映射）是基于比较简单的统计方式，对数据有较大依赖性。最重要的是，这种方式无法完成自然语言短语到复杂知识库关系组合的映射（如 actress 映射为。

其次，在答案获取的过程中，通过远程监督学习训练分类器对语义树进行评分，注意，这里的语义树实际的组合方式是很多的，要训练这样一个强大的语义解析分类器，需要大量的训练数据。我们可以注意到，无论是 Free917 还是 WebQuestion，这两个数据集的问题-答案对都比较少。

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门论文语义分析知识问答理论NLP