论文名称:Knowledge Graph Grounded Goal Planning for Open-Domain Conversation Generation
论文作者:徐俊,王海峰,牛正雨,吴华,车万翔
原创作者:哈工大 SCIR 博士生 徐俊
1 简介
经典的基于神经网络的开放域对话生成没有有效的机制来管理聊天主题,并且往往产生不太连贯的多轮对话。在人-人对话策略的启发下,我们将多轮开放域对话生成任务分为两个子任务:显式目标(话题)序列规划和目标细化(深入话题聊天)。为此,我们提出了一个基于知识的三层强化学习模型(KnowHRL)。具体来说,对于第一个子任务,上层策略学习遍历知识图(KG),以规划显式目标序列,从而在对话一致性、主题一致性与用户兴趣之间取得良好平衡。对于第二个子任务,中间层策略和下层策略协同工作,借助目标完成机制,围绕给定话题的同用户进行深入聊天。显式目标序列规划功能使开放域聊天机器人具备主动引导对话能力,具有许多实际应用场景,如推荐学习资源。实验表明,我们的模型在用户兴趣一致性、对话一致性和知识准确性方面优于最新的基线。
2 方法
术语解释:本文中,受限于资源,我们将对话目标设定为围绕特定话题聊天。为了描述的方便,后续将使用“聊天话题”一词代替“聊天目标”。值得注意的是,本文所提框架支持多种对话目标,包含任务完成、对话推荐等。我们定义话题为知识图谱中的节点,进一步地,为围绕话题深入聊天,我们定义话题可聊侧面为知识图谱中关于该话题的的三元组。如下图中,节点《麦兜·饭宝奇兵》是一个话题,而该话题的一个聊天侧面可能是【《麦兜·饭宝奇兵》,主演,彭博】,表明该话题可以深入聊它的导演。



为了训练KnowHRL,我们设计了多种来源的奖励信号:
上层奖励 对话话题序列连贯度:TransE[1]空间的平均cosine距离 用户兴趣一致性:用户提及新话题时候,bot应该相应调整 多样性: 在频繁切换对话话题和一直停留在一个对话话题间取得平衡 可持续性:鼓励bot聊内容丰富的节点,使用PageRank打分 来自中层的对话话题完成情况
中层奖励 可聊内容侧面之间的连贯度以及来自下层的奖励情况
下层奖励 句间相关度 生成语句丰富度 是否完成给定的可聊内容侧面
3 实验设置
我们在百度公开发布的知识对话数据集DuConv[2]上进行实验,该数据集提供人工标注的约3万个对话,共含有约12万句子;同时,数据集提供电影明星领域的知识图谱,含有约9.1万电影,5.1万明星以及360万三元组。
我们对比了SOTA知识增强的对话生成模型CCM[3]以及SOTA的基于隐变量的强化学习对话模型LaRL[4]。此外,为了验证所提奖励的有效性,我们设置对照组KnowHRL-liteReward,只使用常见的句间相关度和生成语句丰富度作为奖励信号。
所有模型在测试和训练(如果需要)阶段使用同一个用户模拟器,MMPMS模型[5]。
为了综合评估模型的效果,我们在多轮和单轮两个层面从以下几个维度分别进行评估:
多轮评估指标 连贯度:话题内连贯度 (Intra.),话题间连贯度 (Inter.) 多样性(Dist-2) 知识正确性 (K.A.) 用户兴趣一致性 (Cons.)
单轮评估指标 适合度 (Appr.),信息丰富度 (Info.)
4. 实验结果
多轮对话评估

单轮对话评估

5 对话样例

上图给出了一段人机对话样例(使用中文对话,翻译成英文)。在对话中,模型一共同人聊了三个话题(标红的实体)。
参考文献
[1]. Bordes, A.; Usunier, N.; Garcia-Duran, A.; Weston, J.; and Yakhnenko, O. 2013. Translating embeddings for modeling multi-relational data. In NIPS, 2787–2795.
[2]. Wu, W.; Guo, Z.; Zhou, X.; Wu, H.; Zhang, X.; Lian, R.; and Wang, H. 2019. Proactive human-machine conversation with explicit conversation goals. In Proceedings of ACL.
[3]. Zhou, H.; Young, T.; Huang, M.; Zhao, H.; Xu, J.; and Zhu, X. 2018. Commonsense knowledge aware conversation generation with graph attention. In Proceedings of IJCAI-ECAI.
[4]. Zhao, T.; Xie, K.; and Eskenazi, M. 2019. Rethinking action spaces for reinforcement learning in end-to-end dialog agents with latent variable models. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 1208-1218.
[5]. Chen, C.; Peng, J.; Wang, F.; Xu, J.; and Wu, H. 2019. Generating multiple diverse responses with multi-mapping and posterior mapping selection. Proceedings of IJCAI.