FrankLearningMachine作者

深度学习用于文本摘要的论文及代码集锦

[1] A Neural Attention Model for Sentence Summarization

Alexander M. Rush et al.

Facebook AI Research / Harvard SEAS

EMNLP 2015

https://www.aclweb.org/anthology/D/D15/D15-1044.pdf

这篇文章提出一种完全数据驱动的方法对句子进行摘要汇总。该方法根据输入的句子利用局部注意力模型来生成摘要中的每个单词。虽然该模型结构上比较简单,但是可以简单的端到端的来训练,并且可以扩展到巨大的训练数据集中。

文本摘要对齐示例如下

文本输入以及摘要示例如下

注意力编码示例如下

Beam search 算法伪代码示例如下

各方法结果对比如下

代码地址

https://github.com/facebookarchive/NAMAS

[2] Get To The Point: Summarization with Pointer-Generator Networks

Abigail See

Stanford University

ACL 2017

http://www.aclweb.org/anthology/P17-1099

这篇文章提出一种新的序列到序列的注意力模型,该模型对原始的序列到序列的注意力模型进行了扩展。这种方法利用混合指向器-生成器网络将单词从原始文本中基于指针复制出来,这样可以精准的重新生成信息,同时利用生成器来保持生成新词的能力。另外,利用覆盖率来跟踪哪些信息已经抽取出来,从而避免重复信息。

基准序列到序列的注意力模型示例如下

指向-生成器网络结构如下

各方法结果对比如下

各情形效果对比如下

代码地址

https://github.com/abisee/pointer-generator

[3] Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

Sumit Chopra

Facebook AI Research

NAACL 2016

https://nlp.seas.harvard.edu/papers/naacl16_summary.pdf

这篇文章提出一种条件RNN用来对给定句子生成摘要。基于注意力的卷积编码可以确保解码器在每次迭代中只集中在适当的输入词中。该模型只依赖学到的特征,并且容易在大数据集中进行端到端的训练。

各模型结果对比如下

代码地址

https://github.com/facebookarchive/NAMAS

[4] Ranking Sentences for Extractive Summarization with Reinforcement Learning

Shashi Narayan et al.

University of Edinburgh

NAACL-HLT 2018

http://www.aclweb.org/anthology/N18-1158

这篇文章将文本摘要转化为句子排序问题,并且提出一种新的训练算法,该算法利用强化学习来全局优化ROUGE评价标准。

利用强化学习提取文本摘要

各方法效果对比如下

代码地址

https://github.com/EdinburghNLP/Refresh

[5] Deep Recurrent Generative Decoder for Abstractive Text Summarization

Piji Li et al.

The Chinese University of Hong Kong

EMNLP 2017

http://aclweb.org/anthology/D17-1222

这篇文章提出一种文本摘要的新框架,该框架基于序列到序列的编码解码模型,并且利用深层循环生成式解码(DRGD)。为提升摘要质量,利用循环隐含随机模型来学习摘要中的隐含结构信息。为解决循环隐含变量中的后验推理难题,本文利用了神经变分推理方法。摘要是由生成式隐含变量和判别式确定性状态来生成的。

DRGD结构如下

各方法结果对比如下

代码地址

https://github.com/lipiji/DRGD-LCSTS

机器学习blog
机器学习blog

本专栏专注于机器学习(主要包含但不限于深度学习)相关知识分享,其中涉及自然语言处理以及图像处理前沿论文等,欢迎大家关注交流

理论文本摘要深度学习
4
相关数据
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

伪代码技术

伪代码,又称为虚拟代码,是高层次描述算法的一种方法。它不是一种现实存在的编程语言;它可能综合使用多种编程语言的语法、保留字,甚至会用到自然语言。 它以编程语言的书写形式指明算法的职能。相比于程序语言它更类似自然语言。它是半形式化、不标准的语言。

序列到序列技术

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~