一鸣、杜伟整理

7 Papers | 微信团队等NumNet论文;神经算术逻辑单元评价方法;将量子电路转为机器学习模型

本周有一些较为前沿的研究成果,包括微信团队提出的 NumNet——即 DROP 榜首的 NumNet+的前身。还有关于量子计算、神经算术逻辑单元评价方法等方面的最新研究。

目录:
  1. Parameterized quantum circuits as machine learning models

  2. On Empirical Comparisons of Optimizers for Deep Learning

  3. Measuring Arithmetic Extrapolation Performance

  4. Stabilizing Transformers for Reinforcement Learning

  5. GDP:Generalized Device Placement for Dataflow Graphs

  6. A General Framework for Uncertainty Estimation in Deep Learning

  7. NumNet: Machine Reading Comprehension with Numerical Reasoning

论文 1:Parameterized quantum circuits as machine learning models

  • 作者:Marcello Benedetti、Erika Lloyd、Stefan Sack、Mattia Fiorentini

  • 论文地址:https://arxiv.org/pdf/1906.07682v2.pdf

摘要:混合量子经典系统使得现有量子计算机得到充分利用。在这种框架下,参数化量子电路可以看做是具有卓越表现能力的机器学习模型。在本文中,来自英国剑桥量子计算有限公司(Cambridge Quantum Computing Limited)和伦敦大学学院计算机科学系的研究者介绍了这些模型的组成部分,并探讨了它们在监督学习和生成建模等各种数据驱动任务中的应用。随着实际量子硬件进行的实验演示越来越多以及软件的积极开发,这一快速发展的领域将在现实世界中具有广泛的应用范围。

如何将量子计算和传统计算机结合,达成机器学习。

图 8:量子生成模型示意图。

推荐:本文提出了如何将量子电路转换为神经网络中的模型的方法,包括了将一些电路转换为我们熟知的模型的方法。这样一种研究对推动量子计算机驱动的机器学习模型有着很大的作用。

论文 2:On Empirical Comparisons of Optimizers for Deep Learning

  • 作者:Dami Choi、Christopher J. Shallue、Zachary Nado等

  • 论文地址:https://arxiv.org/pdf/1910.05446.pdf

摘要:优化器选择是当前深度学习管道的重要步骤。在本文中,研究者展示了优化器比较对元参数调优协议的灵敏度。研究结果表明,在解释文献中由最近实证比较得出的排名时,元参数搜索空间可能是唯一最重要的因素。但是,当元参数搜索空间改变时,这些结果会相互矛盾。随着调优工作的不断增加,更一般的优化器性能表现不会比近似于它们的那些优化器差,但最近比较优化器的尝试要么假设这些包含关系没有实际相关性,要么通过破坏包含的方式限制元参数。研究者在实验中发现,优化器之间的包含关系实际上很重要,并且通常可以对优化器比较做出预测。具体来说,流行的自适应梯度方法的性能表现绝不会差于动量或梯度下降法。

推荐:如何选择优化器?本文从数学角度论证了不同优化器的特性,可作为模型构建中的参考资料。

论文 3:Measuring Arithmetic Extrapolation Performance

  • 作者:Andreas Madsen、Alexander Rosenberg Johansen

  • 论文地址:https://arxiv.org/abs/1910.01888

摘要:神经算术逻辑单元(NALU)是一种神经网络层,可以学习精确的算术运算。NALU 的目标是能够进行完美的运算,这需要学习到精确的未知算术问题背后的底层逻辑。评价 NALU 性能是非常困难的,因为一个算术问题可能有许多种类的解法。因此,单实例的 MSE 被用于评价和比较模型之间的表现。然而,MSE 的大小并不能说明是否是一个正确的方法,也不能解释模型对初始化的敏感性。因此,研究者推出了一种「成功标准」,用来评价模型是否收敛。使用这种方法时,可以从很多初始化种子上总结成功率,并计算置信区间。通过使用这种方法总结 4800 个实验,研究者发现持续性的学习算术推导是具有挑战性的,特别是乘法。

推荐:尽管神经算术逻辑单元的出现说明了使用神经网络进行复杂运算推导是可行的,但是至今没有一种合适的评价神经网络是否能够成功收敛的标准。本文填补了这一遗憾,可供对本领域感兴趣的读者参考

论文 4:Stabilizing Transformers for Reinforcement Learning

  • 作者:Emilio Parisotto 等

  • 论文地址:https://arxiv.org/abs/1910.06764

摘要:得益于预训练语言模型强大的能力,这些模型近来在 NLP 任务上取得了一系列的成功。这需要归功于使用了 transformer 架构。但是在强化学习领域,transformer 并没有表现出同样的能力。本文说明了为什么标准的 transformer 架构很难在强化学习中优化。研究者同时提出了一种架构,可以很好地提升 transformer 架构和变体的稳定性,并加速学习。研究者将提出的架构命名为 Gated Transformer-XL (GTrXL),该架构可以超过 LSTM,在多任务学习 DMLab-30 基准上达到 SOTA 的水平。

推荐:本文是 DeepMind 的一篇论文,将强化学习和 Transformer 结合是一种新颖的方法,也许可以催生很多相关的交叉研究。

论文 5:GDP:Generalized Device Placement for Dataflow Graphs

  • 作者:Yanqi Zhou 等

  • 论文链接:https://arxiv.org/pdf/1910.01578.pdf

摘要:大型神经网络的运行时间和可扩展性会受到部署设备的影响。随着神经网络架构和异构设备的复杂性增加,对于专家来说,寻找合适的部署设备尤其具有挑战性。现有的大部分自动设备部署方法是不可行的,因为部署需要很大的计算量,而且无法泛化到以前的图上。为了解决这些问题,研究者提出了一种高效的端到端方法。该方法基于一种可扩展的、在图神经网络上的序列注意力机制,并且可以迁移到新的图上。在不同的表征深度学习模型上,包括 Inception-v3、AmoebaNet、Transformer-XL 和 WaveNet,这种方法相比人工方法能够取得 16% 的提升,以及比之前的最好方法有 9.2% 的提升,在收敛速度上快了 15 倍。为了进一步减少计算消耗,研究者在一系列数据流图上预训练了一个策略网络,并使用 superposition 网络在每个单独的图上微调,在超过 50k 个节点的大型图上得到了 SOTA 性能表现,例如一个 8 层的 GNMT。

图 1:GDP 方法的总体架构,是一个结合了图嵌入和序列注意力机制的网络。

推荐:本文是谷歌大脑的一篇论文,通过图网络的方法帮助将模型部署在合适的设备上。推荐收到硬件设备限制,需要找到合适部署图的方法的读者参考。

论文 6:A General Framework for Uncertainty Estimation in Deep Learning

  • 作者:Antonio Loquercio、Mattia Segu、Davide Scaramuzza

  • 论文地址:https://arxiv.org/pdf/1907.06890v3.pdf

摘要:神经网络的预测通常是不可靠的,特别是当输入的样本不在训练集的分布中,或者因为噪声而损坏的情况下。深度学习算法应当具有自动预测这种失败的能力,然而现有的不确定性预测方法需要对网络和优化流程进行调整,尤其忽略了数据中先验知识的重要性。这些方法倾向于过度简化假设,从而低估了不确定性。为了解决这些问题,研究者提出了一种新的不确定性估计框架。基于贝叶斯信念网络和蒙特卡洛采样,研究者的框架不仅能够完善模型对不同来源的不确定性预测,还可以和之前的感知噪声等数据信息相结合。研究者从理论上说明这一模型相比现有模型可以更好地捕捉不确定性。相比之前的方法,在计算机视觉和控制任务上,研究者的方法最多可以超出 23% 的表现。

图 1:模型的架构。给定变量 x 作为输入,以及噪声 v^(0),和训练好的神经网络研究者的方法需要计算输出的置信度。

推荐:对于神经网络预测结果的不确定性研究是近来关注的一个热点。本文提出了一种新颖的方法,推荐读者参考。

论文 7:NumNet: Machine Reading Comprehension with Numerical Reasoning

  • 作者:Qiu Ran, Yankai Lin, Peng Li, Jie Zhou, Zhiyuan Liu

  • 论文地址:https://arxiv.org/pdf/1910.06701.pdf

摘要:数字推理,如加减、排序和计数是人类阅读理解中的重要能力,但是现有的机器阅读理解模型却考虑得很少。为了解决这一问题,研究者提出了一个数字机器阅读理解模型,名为 NumNet。这一模型通过使用数字感知的图神经网络来对比信息,并进行数字推理。研究者的模型在 DROP 数据集上取得了 64.56% 的 EM 分数,相比现有的机器阅读理解模型在数字关系上的表现更好。

表 1:DROP 数据集中的部分问题和答案。这些问题需要模型能够理解文本中的数字,并进行一定的运算和推理。

图 1:NumNet 的架构,分为编码层、推理层和预测层三层。分别使用了 QANet、图神经网络和 NQANet。

推荐:这是 DROP 排行榜榜首 NumNet+的原版 NumNet 论文,NumNet+将编码层中的 QANet 替换为了 RoBERTa。尽管 NumNet+尚未见到论文,但通过阅读本文,可以基本上了解这一模型的相关架构。

理论量子计算神经算术逻辑单元评价
相关数据
神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

神经算术逻辑单元技术

神经网络可以学习表示和操纵数字信息,但它们很少能在训练期间遇到的数值范围之外有很好的鲁棒性。神经算术逻辑单元(NALU)是一种模块,类似于传统处理器中的算术逻辑单元,它将数值表示为线性激活,使用由学习门(learned gates)控制的原始算术运算符进行操作。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

暂无评论
暂无评论~