清华阿罗作者知乎来源文婧编辑

ICLR2020 NLP优秀论文分享(附源码)

为你分享ICLR 2020 NLP优秀论文。

https://zhuanlan.zhihu.com/p/139069973

1.REFORMER:THE EFFICIENT TRANSFORMER[1]

论文小结:作者提出了一种新的转换器模型,对体系架构进行了两项重大改进:1)使用可逆层以防止需要存储所有层的激活来进行反向传播;2)使用局部敏感哈希来估算耗时间的softmax计算。该Reformer的性能与SOTA Transformer模型相当,但内存效率更高,长序列的速度更快。

代码地址:google/trax

2.ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations[2]

论文小结:ALBERT是BERT的扩展,它试图回答一个问题,即较大的模型是否可以解决NLP任务?Albert通过跨层参数共享获得SOTA结果。通过共享参数,ALBERT可以变小并具有相似的性能。采用更多参数,ALBERT的表现更好,但其训练速度仍比BERT快。当训练时间相同,ALBERT的表现要好于BERT。这些结果表明单纯构建更复杂、更大、更深的模型并不总是提高模型性能的最佳方法。

代码地址:google-research/albert

3.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators[3]

论文小结: 预训练语言模型的常见操作是mask输入,并让模型预测被mask的内容。本文介绍了一种称为令牌检测的新的预训练方法。在新方法中,作者从生成器中采样来替代某些令牌,然后训练一个鉴别器来预测生成器是否替换了输入中的每个令牌。论文操作方法的数据效率更高,比以往方法提高了约15%。它表明在如何训练语言模型方面还有更多的创造空间。

代码地址:github.com/google-resea

4.Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue[4]

论文小结:本文提出了一种用于开放域对话知识选择的新方法,称为序列隐模型,该模型将知识历史表示为某种隐表示。这样做是因为跟踪知识历史记录可减少因会话的知识选择差异而引起的歧义,但也可以帮助更好地使用信息反馈。这项工作表明,改进知识选择可以大大提高响应生成质量。这对构建更强大的对话应用程序产生影响。

代码地址:bckim92/sequential-knowledge-transformer

5.A Probabilistic Formulation of Unsupervised Text Style Transfer[5]

论文小结:作者提出一种无监督文本样式转换的概率模型。该方法大致想法是通过使用来自两个域的非并行数据作为部分观察到的并行语料库。作者提出的模型可以学习将序列从一个域转换为另一域。通过生成并行隐序列,模型能以无监督的方式学习该序列。文章表明在无监督的情感转换、作者模仿和机器翻译等领域取得效果。本文介绍的方法不需要成对的训练数据,这使得数据收集更加容易。

代码地址:github.com/cindyxinyiwa

6.The Curious Case of Neural Text Degeneration[6]

论文小结:论文作者提出了一种新的解码策略,即核心采样、同时截去尾部概率分布,从包含绝大多数概率质量的令牌动态核中采样。与直觉相反的经验观察结果是,即使针对多样语言理解任务,使用似然作为训练目标能提供高模型质量,但作为解码目标,似然会导致文本理解乏味且重复。论文表明即使在最新的语言模型中,文本退化也是一个问题。对于各种NLP任务,解码策略对于类人的文本生成很重要。去掉beam search之类的贪婪算法将有助于执行下游任务。

代码地址:ari-holtzman/degen

7.What Can Neural Networks Reason About[7]

论文小结: 本文介绍了一种称为算法alignment的框架,用于评估神经网络在推理任务上的表现。与已知算法解决方案作align的神经网络能够更好地学习这些解决方案。该框架大致认为,要使模型能够学习并成功地概括推理任务,它需要简单学习(近似)推理任务的步骤。作者提出图神经网络非常适合,因此可以学习解决动态编程问题。这是一篇晦涩的理论论文,解释了人们一直在凭直觉做出的架构选择,并为以后研究并探索新架构来更好地适应机器学习任务奠定基础。

代码地址:github.com/NNReasoning/

参考

  1. https://arxiv.org/pdf/2001.04451.pdf
  2. https://arxiv.org/pdf/1909.11942.pdf
  3. https://arxiv.org/pdf/2003.10555.pdf
  4. https://arxiv.org/pdf/2002.07510.pdf
  5. https://arxiv.org/pdf/2002.03912.pdf
  6. https://arxiv.org/pdf/1904.09751.pdf
  7. https://arxiv.org/pdf/1905.13211.pdf
THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论论文NLPICLR 2020
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

推荐文章
暂无评论
暂无评论~