模板在知识图(knowledge graph, KG)的问答(question answering, QA)中发挥着重要作用,其中用户话语通过语义解析被翻译成结构化查询。话语模板(Utterance templates)通常与查询模板(query templates)配对,指导话语成分到查询组件的映射。下表给出了一个话语查询模板,其中pred和ent指示话语模板中的短语与对应话语模板中的KG语义项之间的对齐。
每个模板i)指定如何将话语组成短语,ii)指导这些短语如何通过将其语义角色指定为谓词或实体来映射到KG原语,以及iii)将话语中的句法结构与查询的语义谓词参数结构对齐。
模板的一个好处是,KG的映射是可追踪的,可以利用它来为用户生成解释,以了解她收到特定答案的原因。例如,当话语“谁发明了互联网?”返回答案Al Gore时,我们可以解释为它是从上表的第一个模板回答的,并且KG谓词使用的是“known for”,源于通过pred1对齐的原句中的词汇为“invented”。
但手工制定的模板和规则仅能覆盖有限的问题范围,因此自动学习话语查询模板并生成模板是必须的。我们以系统QUINT为例,说明这一操作是如何实现的。QUINT能够利用自然语言的组合性和从简单问题中自动学习话语查询模板来回答复杂的问题,并在问题话语的成分和KG查询之间进行对齐。
上图显示了模板如何在训练时生成。训练阶段的输入是问题话语u和来自KG的答案集A_u。比如训练集中的一个例子为u=“Which actress played character Amy Squirrel on Bad Teacher?”,其对应的答案为A_u = {LucyPunch},我们使用字母u来交替引用话语及其依赖性解析树(dependency parse tree)。话语的依赖性解析树是有向根树,其节点对应于话语令牌,而边缘表示节点之间的语法关系。QUINT的话语模板基于话语的依赖性解析的动机是依赖解析(1)可以捕获话语标记之间的长程依赖关系,这有助于回答组合问题和(2)提供了很大的灵活性,允许QUINT在实例化查询模板时跳过不相关的标记。下图显示了上述话语的依赖关系解析。
总的来说我们希望在训练阶段中找到一个从查询q对齐到问题u的方式,在学习到这一点之后,我们可以执行泛化以从上面的对齐过程获得的对齐的话语 - 查询对(u,q,m)构造模板。下图给出了一个对齐的话语查询对(u,q,m)的例子。 m由ent,pred和type注释表示(例如,“played on”与cast.actor对齐)。在查询模板方面,QUINT接受使用其依赖性解析树表示的话语,并将其限制为包含参与m的所有短语的标记的最小连接子图。在下图中,我们需要移除对应于'which'的节点。
要从此子图创建模板,我们将参与m的节点转换为占位符,方法是删除其文本并保留POS标记和语义对齐注释(ent,type,pred)。我们使用通用POS标签来获得更强的泛化能力。我们用名词标记替换复合名词,该名词标记可用于在测试时匹配复合名词以确保泛化。
[图片及描述来源:Abujabal, A. et al. (2017). Automated Template Generation for Question Answering over Knowledge Graphs. WWW. pp 1191-1200.]
发展历史
尽管有关知识图谱的研究中模板非常重要,但很多时候,它们并不是自动生成的。2在Christina Unger和Philipp Cimiano等人2012年针对资源描述框架(RDF)数据的研究中,它们使用对问题的解析来生成一个直接反映问题内部结构的SPARQL模板,然后使用统计实体识别和谓词检测来实例化该模板。同年Mohamed Yahya和Gerhard Weikum等人提出的将自然语言问题转换为链接数据源的结构化SPARQL查询的方法则使用了整数线性程序,涉及到问题分成短语; 短语到语义实体,类和关系的映射; 和SPARQL三重模式的构建。
2015年,Hannah Bast和Elmar Haussmann则使用了单个手动构造的查询模板,没用任何话语模板。Scott Wen-tau Yih和Jianfeng Gao等人也使用了手工制作的模板,他们定义了一个类似于知识库子图的查询图,可以直接映射到逻辑表单。语义解析被简化为查询图生成,被公式化为分阶段搜索问题。 他们的方法在早期利用知识库来修剪搜索空间,从而简化语义匹配问题。 通过应用先进的实体链接系统和匹配问题和谓词序列的深度卷积神经网络模型,该系统基本上优于以前的方法,并在WebQuestions数据集上实现了52.5%的F1测量。
2017年,Abdalghani Abujabal和Gerhard Weikum等人介绍了QUINT,这是一个自动学习话语查询模板的系统。 此外,QUINT能够利用语言组合来回答复杂问题,而无需为整个问题提供任何模板。
主要事件
年份 | 事件 | 相关论文/Reference |
2012 | Christina Unger和Philipp Cimiano等人2012年针对资源描述框架(RDF)数据的研究中,它们使用对问题的解析来生成一个直接反映问题内部结构的SPARQL模板 | Unger, C.; Bühmann, L.; Lehmann, J.; Ngomo, A. N.; Gerber, D. and Cimiano, D. (2012). Template-based question answering over RDF data. WWW. |
2012 | Mohamed Yahya和Gerhard Weikum等人提出的将自然语言问题转换为链接数据源的结构化SPARQL查询的方法则使用了整数线性程序 | Yahya, M.; Berberich, K.; Elbassuoni, S.; Ramanath, M.; Tresp, V. and Weikum, G. (2012). Natural language questions for the web of data. EMNLP-CoNLL. |
2015 | Hannah Bast和Elmar Haussmann则使用了单个手动构造的查询模板,没用任何话语模板 | Bast, H. and Haussmann, E. (2015). More accurate question answering on freebase. CIKM. |
2015 | Scott Wen-tau Yih和Jianfeng Gao等人也使用了手工制作的模板,他们定义了一个类似于知识库子图的查询图,可以直接映射到逻辑表单 | Yih, W.; Chang, M.; He, X.; and Gao, J. (2015). Semantic parsing via staged query graph generation: Question answering with knowledge base. ACL. |
2017 | Abdalghani Abujabal和Gerhard Weikum等人介绍了QUINT,这是一个自动学习话语查询模板的系统 | Abujabal, A. et al. (2017). Automated Template Generation for Question Answering over Knowledge Graphs. WWW. pp 1191-1200. |
发展分析
瓶颈
自动生成的模板可以建立庞大的模板库的需求,从而提高了效率。但生成的模板能否满足用户的不同问法以及模型表现在现阶段还缺乏系统的研究。
未来发展方向
模板自动生成是目前海量数据的一个必然现象,其主要优点在于查询响应速度快,准确率高,还可以回答较复杂的、不规则的查询。
Contributor: Yuanyuan Li