祝方韦本文作者Laura Perez-Beltrachini, Yang Liu, Mirella Lapata (爱丁堡大学)论文作者

ACL 2019 | 利用主题模板进行维基百科摘要生成

论文原文:https://arxiv.org/pdf/.pdf

论文背景

生成式多文档摘要的目标是从一系列理论上相关的文档中生成一个合乎逻辑的摘要。最近,谷歌将生成维基百科文档的导读部分看作了一个多文档摘要任务的变种,并发布了一个大规模的摘要数据集WikiSum。然而,之前的摘要工作大多将摘要结果看作单个长文本序列,忽视了文档常常分为多个主题,并且一类文档可以看作由多个主题按顺序排列得到:如动物类文档通常会按顺序讲述其生活区域与栖息地类别。这些信息可以帮助生成更流畅的摘要。

该文提出了一个由主题结构作指导的神经网络模型,没有使用常见的循环神经网络,而是在卷积解码器的基础上显性地加入了内容的主题结构,从而生成完整而流畅的摘要。此外,该文还提供了数据集WIKICATSUM,其中包含公司、电影与动物三个领域的维基百科文档与对应的候选片段。

论文模型

该文的模型使用了传统的编码器-解码器架构,将输入文本编码成隐向量后从中解码出最终的摘要文本。整个模型分为四块:基于CNN的文档编码器,基于LSTM的句子级别解码器,基于CNN的单词级别解码器,以及主题判别模块。总体架构图如下:

在使用CNN将输入文本编码为一个隐向量后,该文使用了一个层次卷积解码器来生成最后的结果。层次卷积解码器包含两部分:句子级别解码器与单词级别解码器。单词级别解码器在传统CNN的基础上,为每一个单词的向量表示加上了它在句子中位置与句子在全文中位置的特征:

其中emb(y_ti )代表单词的原始向量表示,e_i代表单词在句子中位置的向量表示,e_t代表句子在全文中位置的向量表示。

句子级别的解码器则在LSTM基础上,结合注意力机制[1]加入了上下文的表示:

其中α_tj^s代表在时刻t时,输入token x_j  对应的注意力权重

在以上两层的基础上,模型利用多步注意力机制[2],根据之前生成的句子和相应的上下文确定下一个句子:

其中,o_ti^l代表摘要结果中第 l 句话的第 i 个单词对应的输出向量,s_t为公式(2)对应的句子向量表示,上下文向量c_ti^l则由以下公式推出:

其中,g_ti代表上一步生成的单词对应的向量表示。

最后,得到输出向量o_ti^l与上下文向量c_ti^l后,模型经过一个全连接层与一个softmax层得到选择单词的概率分布,从中挑选可能性最大的单词作为结果:

除此之外,模型中还有一个主题判别模块,它将每一个句子看作一份文档,利用LDA模型分析出其中隐含的主题列表K,并为每一个句子打上最可能的主题标签。在生成句子时,模型经过一个全连接层与一个softmax层计算出生成句子可能对应的主题:

在训练时,模型将同时优化生成部分与主题判别部分的损失。

论文实验

该文在自己构造的数据集WIKICATSUM上进行了实验,其中包含三类文档:公司,电影与动物。具体参数如下(R1,R2.RL分别代表ROUGE-1, ROUGE-2,ROUGE-L的召回率):

实验中将模型与谷歌2018年的工作进行了对比。结果如下表(TF-S2S为谷歌模型,A代表生成结果与标准结果的重合度,C代表生成结果与输入语料的重合度):

可以看出,此模型在公司与电影领域上对比之前工作将各个ROUGE分数提高了0.15分左右,且在动物领域上也有不错的表现。此外,结果还表明此模型生成的摘要覆盖内容面更广泛。

参考文献

[1] Thang Luong, Hieu Pham, and Christopher D. Manning. 2015. Effective approaches to attention-based neural machine translation. In Proceedings of the2015 Conference on Empirical Methods in Natural Language Processing, pages 1412-1421, Lisbon, Portugal.

[2] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N Dauphin. 2017. Convolutional Sequence to Sequence Learning. In Proceedings of the 34th International Conference on Machine Learning, pages 1243-1252, Sydney, Australia.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论自动摘要维基百科ACL 2019
3
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

软注意力机制技术

软注意力机制 (soft attention mechanism) 通过选择性地忽略部分信息来对其余信息进行重加权聚合计算,已在计算机视觉领域取得了广泛的应用和成功。现有的注意力模型主要是基于soft attention的,所有信息在被聚合之前会以自适应的方式进行重新加权。这样可以分离出重要信息,并避免这些信息受到不重要信息的干扰,从而提高准确性。随着不同信息之间相互作用的复杂度的降低,学习就变得越有效。

推荐文章
暂无评论
暂无评论~