论文标题:
Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph
论文作者:
Chenguang Zhu, William Hinthorn, Ruochen Xu, Qingkai Zeng, Michael Zeng, Xuedong Huang, Meng Jiang
论文链接:
https://arxiv.org/abs/2003.08612
抽象式文本摘要具有更加灵活的特点,然而,它也容易导致“文本事实偏离”——错误地提取了文章给出的基本事实。此时,尽管生成的文本很通顺,但是它包含了错误的事实,这就改变了原文的信息。
本文提出把知识图谱融入到文本摘要的过程中,通过显式地提取事实性知识,生成的摘要可以更好地利用这些知识,从而最大限度地保留原义。
抽象式文本摘要与事实性知识丢失
文本摘要是NLP中非常重要的一项任务,即给定一篇长文章,模型生成一小段文本作为对该文章的摘要。
总的来讲,文本摘要分为抽取式与抽象式。前者是直接从文章中选取片段作为摘要,后者是从头开始生成一段文本作为摘要。
显然,抽取式文本摘要的好处是它能保留文章的原始信息,但缺点是它只能从原文章中选取,相对不那么灵活。
而抽象式摘要尽管能更加灵活地生成文本,但是它经常包含很多错误的“事实性知识”——错误地生成了原文章本来的信息。
比如,原文章包含了一个重要事实(观点):“诺兰于2010年导演了《盗梦空间》,由莱昂纳多主演。”
但是,抽象式摘要模型可能就会生成:“莱昂纳多导演了《盗梦空间》。”这就是事实性知识的错误。
针对这种现象,本文在抽象式摘要中融入了知识图谱:
首先使用知识图谱动态地提取文章中的事实性知识;
把提取到的事实性知识融合到文本生成的过程中;
使得生成的文本不再包含事实性知识错误。
除此之外,本文还训练了一个事实性知识评估模型,用于评估生成的摘要匹配原文事实性知识的程度。
通过在基准数据集CNN/DailyMail和XSum的实验与分析,本文证明了该方法(FASUM)可以取得显著更好的事实性知识度,同时也具有抽象式文本摘要的灵活的特点。
将知识图谱融入到文本摘要过程
知识图谱构建
知识融合
摘要生成
事实性知识正确度评估
实验
为了检验抽象式摘要生成文本的“抽象程度”——生成新的n-gram的比例,如下图所示。可以看到,FASUM在所有方法中,可以生成更加新颖的摘要,同时保留了事实性知识。
下表是计算结果。可以看到,FASUM在事实性知识匹配程度上显著优于基线模型,这说明在文本摘要中加入知识图谱的确可以保留事实性知识。
我们再来看看人工评测。如下表所示,在事实性得分上,FASUM毫无疑问取得最好结果;在信息度上,UNILM得分最高,其次是FASUM。
小结
在文本摘要中,提取事实性知识,即原文信息,是非常重要的一个环节。尽可能保留原文可以避免原义的曲解,对于鉴别当前互联网上随处可见的假新闻有重要的意义。
将知识图谱融入到文本摘要任务中是NLP发展的一大趋势,有助于加速NLP大规模落地应用的进程。