论文原文:https://arxiv.org/pdf/.pdf
论文背景
生成式多文档摘要的目标是从一系列理论上相关的文档中生成一个合乎逻辑的摘要。最近,谷歌将生成维基百科文档的导读部分看作了一个多文档摘要任务的变种,并发布了一个大规模的摘要数据集WikiSum。然而,之前的摘要工作大多将摘要结果看作单个长文本序列,忽视了文档常常分为多个主题,并且一类文档可以看作由多个主题按顺序排列得到:如动物类文档通常会按顺序讲述其生活区域与栖息地类别。这些信息可以帮助生成更流畅的摘要。
该文提出了一个由主题结构作指导的神经网络模型,没有使用常见的循环神经网络,而是在卷积解码器的基础上显性地加入了内容的主题结构,从而生成完整而流畅的摘要。此外,该文还提供了数据集WIKICATSUM,其中包含公司、电影与动物三个领域的维基百科文档与对应的候选片段。
论文模型
该文的模型使用了传统的编码器-解码器架构,将输入文本编码成隐向量后从中解码出最终的摘要文本。整个模型分为四块:基于CNN的文档编码器,基于LSTM的句子级别解码器,基于CNN的单词级别解码器,以及主题判别模块。总体架构图如下:
在使用CNN将输入文本编码为一个隐向量后,该文使用了一个层次卷积解码器来生成最后的结果。层次卷积解码器包含两部分:句子级别解码器与单词级别解码器。单词级别解码器在传统CNN的基础上,为每一个单词的向量表示加上了它在句子中位置与句子在全文中位置的特征:
其中emb(y_ti )代表单词的原始向量表示,e_i代表单词在句子中位置的向量表示,e_t代表句子在全文中位置的向量表示。
句子级别的解码器则在LSTM基础上,结合软注意力机制[1]加入了上下文的表示:
其中α_tj^s代表在时刻t时,输入token x_j 对应的注意力权重。
在以上两层的基础上,模型利用多步注意力机制[2],根据之前生成的句子和相应的上下文确定下一个句子:
其中,o_ti^l代表摘要结果中第 l 句话的第 i 个单词对应的输出向量,s_t为公式(2)对应的句子向量表示,上下文向量c_ti^l则由以下公式推出:
其中,g_ti代表上一步生成的单词对应的向量表示。
最后,得到输出向量o_ti^l与上下文向量c_ti^l后,模型经过一个全连接层与一个softmax层得到选择单词的概率分布,从中挑选可能性最大的单词作为结果:
除此之外,模型中还有一个主题判别模块,它将每一个句子看作一份文档,利用LDA模型分析出其中隐含的主题列表K,并为每一个句子打上最可能的主题标签。在生成句子时,模型经过一个全连接层与一个softmax层计算出生成句子可能对应的主题:
在训练时,模型将同时优化生成部分与主题判别部分的损失。
论文实验
该文在自己构造的数据集WIKICATSUM上进行了实验,其中包含三类文档:公司,电影与动物。具体参数如下(R1,R2.RL分别代表ROUGE-1, ROUGE-2,ROUGE-L的召回率):
实验中将模型与谷歌2018年的工作进行了对比。结果如下表(TF-S2S为谷歌模型,A代表生成结果与标准结果的重合度,C代表生成结果与输入语料的重合度):
可以看出,此模型在公司与电影领域上对比之前工作将各个ROUGE分数提高了0.15分左右,且在动物领域上也有不错的表现。此外,结果还表明此模型生成的摘要覆盖内容面更广泛。
参考文献
[1] Thang Luong, Hieu Pham, and Christopher D. Manning. 2015. Effective approaches to attention-based neural machine translation. In Proceedings of the2015 Conference on Empirical Methods in Natural Language Processing, pages 1412-1421, Lisbon, Portugal.
[2] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N Dauphin. 2017. Convolutional Sequence to Sequence Learning. In Proceedings of the 34th International Conference on Machine Learning, pages 1243-1252, Sydney, Australia.