一鸣、杜伟整理

7 Papers | 谷歌量子霸权论文;13项NLP任务夺冠的小模型ALBERT

本周重要论文很多,特别是谷歌的研究非常耀眼,有量子霸权论文和参数小 BERT 很多但性能超 XLNe 的模型 ALBERTt。此外还有北大等的论文。

目录:

  1. Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

  2. InterpretML: A Unified Framework for Machine Learning Interpretability

  3. ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

  4. Language Models as Knowledge Bases?

  5. Deep Learning For Symbolic Mathematics

  6. Quantum Supremacy Using a Programmable Superconducting Processor

  7. Do Massively Pretrained Language Models Make Better Storytellers?

论文 1:Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

  • 作者:Zhonghui You、Kun Yan、Jinmian Ye、Meng Ma、Ping Wang

  • 论文链接:https://arxiv.org/abs/1909.08174

摘要:对滤波器进行剪枝是一种最为有效的、用于加速和压缩卷积神经网络的方法。在这篇论文中,来自北大的研究者提出了一种全局滤波器剪枝的算法,名为「门装饰器(gate decorator)」。这一算法可以通过将输出和通道方向的尺度因子(门)相乘,进而改变标准的 CNN 模块。当这种尺度因子被设 0 的时候,就如同移除了对应的滤波器。研究人员使用了泰勒展开,用于估计因设定了尺度因子为 0 时对损失函数造成的影响,并用这种估计值来给全局滤波器的重要性进行打分排序。接着,研究者移除哪些不重要的滤波器。在剪枝后,研究人员将所有的尺度因子合并到原始的模块中,因此不需要引入特别的运算或架构。此外,为了提升剪枝的准确率,研究者还提出了一种迭代式的剪枝架构——Tick-Tock。

图 1:滤波器剪枝图示。第 i 个层有 4 个滤波器(通道)。如果移除其中一个,对应的特征映射就会消失,而输入 i+1 层的通道也会变为 3。

图 2:Tick-Tock 剪枝框架图示。

图 3:组剪枝展示。同样颜色的 GBN 属于同一组。

推荐:本文是北大和 Momenta 的一篇论文,借用 LSTM 的门控制思想对神经网络进行剪枝,是一种新颖的剪枝方法,读者朋友可借鉴。

论文 2:InterpretML: A Unified Framework for Machine Learning Interpretability

  • 作者:Harsha Nori、Samuel Jenkins、Paul Koch、Rich Caruana

  • 论文链接:https://arxiv.org/abs/1909.09223v1

摘要:InterpretML 是一个为实践者和研究者提供机器学习可解释性算法的开源 Python 软件包。InterpretML 能提供以下两种类型的可解释性:(1)明箱(glassbox),这是针对可解释性设计的机器学习模型(比如线性模型、规则列表、广义相加模型);(2)黑箱(blackbox)可解释技术,用于解释已有的系统(比如部分依赖、LIME)。这个软件包可让实践者通过在一个统一的 API 下,借助内置的可扩展可视化平台,使用多种方法来轻松地比较可解释性算法。InterpretML 也包含了可解释 Boosting 机(Explanable Boosting Machine,EBM)的首个实现,这是一种强大的可解释明箱模型,可以做到与许多黑箱模型同等准确的性能。

软件架构和代码

推荐:本文是微软开源工具的论文,用于帮助人们使用科技史的模型进行机器学习。

论文 3:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

  • 作者:谷歌团队

  • 论文链接:https://openreview.net/pdf?id=H1eA7AEtvS

摘要:通常而言,在预训练自然语言表征时增加模型大小可以提升模型在下游任务中的性能。但在某些情况下,由于 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等原因,进一步增加模型大小的难度也随之增加。所以,为了解决这些问题,来自谷歌的研究者提出通过两种参数削减(parameter-reduction)技术来降低内存消耗,加快 BERT 的训练速度。综合实验表明,ALBERT 的扩展效果要优于原始 BERT。此外,他们还使用了聚焦于句间连贯性建模的自监督损失,并证明这种损失对下游任务中的多语句输入有持续帮助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测试上都取得了新的 SOTA 效果,并且参数量少于 BERT-large。

表 2:本文中用到的 BERT 和 ALBERT 模型配置。

推荐:虽然大型预训练语言模型在很多 NLP 任务上取得了进展,但压缩参数一直是研究者的目标。谷歌团队这回再次发力,将 BERT 进行了明显的参数缩减,但依然超越了现有的 SOTA——XLNet 模型。这一论文值得读者阅读。

论文 4:Language Models as Knowledge Bases?

  • 作者:Fabio Petroni、Tim Rocktaschel、Patrick Lewis、Anton Bakhtin1Yuxiang Wu、Alexander H. Miller、Sebastian Riedel

  • 论文地址:https://arxiv.org/abs/1909.01066v2

摘要:近来在大型与来哦中预训练的语言模型帮助 NLP 下游任务提升了性能表现。当学习语言知识的同时,这些模型可能存储了训练集中的关联知识,可以回答一些填空方面的问题。

作为结构化的知识基础,语言模型有很多优势:它们不需要抽取工程,使得使用者可以获得开放的关系类别,也可以容易地扩展更多数据,也不需要监督训练。本文中,研究者探究了一系列 SOTA 语言模型在不微调的情况下作为关系知识表示的能力。

语言模型作为知识表示的方法。

推荐:本文分析了语言模型作为关系知识表示的能力,为下一步利用预训练模型进行知识推理和问答的研究提供了一些思路。

论文 5:Deep Learning For Symbolic Mathematics

  • 作者匿名

  • 论文地址:https://openreview.net/forum?id=S1eZYeHFDS¬eId=S1eZYeHFDS

摘要:神经网络在解决统计或拟合问题时较计算和解决符号数据更为优秀。在本文中,研究者表明,神经网络在解决一些复杂的数学问题上表现很好,例如符号积分和解决微分方程。研究者提出了一种语法,可以表示这些数学问题,以及一种用于生成大数据集的方法,用于训练一个 seq2seq 模型。研究者提出的方法在表现上超过了商业代数计算软件的性能,如 Matlab 或 Mathematica。

推荐:神经网络强大的拟合能力使其在机器学习中占有一席之地。本文创新性地使用神经网络拟合数学问题,且计算速度很快。

论文 6:Quantum Supremacy Using a Programmable Superconducting Processor

  • 作者:Eleanor G. Rieffel

  • 论文地址:https://drive.google.com/file/d/19lv8p1fB47z1pEZVlfDXhop082Lc-kdD/view

摘要:量子计算机的诱人前景在于量子处理器上执行某项计算任务的速度要比经典处理器快指数倍,而根本性的挑战是构建一个能够在指数级规模的计算空间中运行量子算法的高保真度处理器。在这篇论文中,谷歌研究者使用具有可编程超导量子比特的处理器来创建 53 量子比特的量子态,占据了 2^53∼10^16 的状态空间。重复性实验得到的测量值对相应的概率分布进行采样,并利用经典模拟加以验证。

谷歌的量子处理器大约只需 200 秒即可对量子电路采样 100 万次,而当前最优的超级计算机完成同样的任务大约需要 1 万年。

图 1:Sycamore 量子处理器。a. 该处理器的布局,有 54 个量子比特,每个量子比特用耦合器(蓝色)与四个最近的量子比特相连;b. Sycamore 芯片的光学图像。

推荐:本文昭示着量子计算领域的进一步发展,为量子计算的实际应用奠定了研究基础。论文依旧是谷歌相关团队,足见其科研实力强大。

论文 7:Do Massively Pretrained Language Models Make Better Storytellers?

  • 作者:Abigail See、Aneesh Pappu、Rohun Saxena、 Akhila Yerukola、 Christopher D. Manning

  • 论文地址:https://arxiv.org/pdf/1909.10705

摘要:在大量文本上训练过的大型神经语言模型在很多种 NLP 任务上都取得了很好的表现。但是,这些模型在自然语言生成任务上的能力依然不够明确。一些线索说明这些模型可以生成高质量文本,但是并没有关于这些模型生成能力的具体研究。本文中,研究者对比了这些预训练模型,包括 GPT2-117 和现在的神经故事生成模型。通过多种指标评估生成文本后,研究人员发现了一些可以很好生成故事的模型,以及一些表现不太好的模型。研究人员表示,虽然 GPT2-117 在语境上更好,对事件的顺序更敏感,而且使用了更多不常用的词汇,但是它在使用最大似然解码算法时只能生成重复的、没有多样性的文本。

不同模型生成的故事文本。

推荐:预训练语言模型能讲好故事吗?本文说明:依然不能。故事不仅关乎语法和语序,还有隐式地表意和情感信息和额外的先验知识作为基础。目前很多文本生成的模型仅仅只是继续续写文本而已,它们既没有理解文本的含义,也无法组织起连贯有趣的语言。


理论ALBERT量子霸权
42
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

神经语言模型技术

语言模型是估计单词序列的联合概率函数,比如给一个长度为m的单词序列,通过使用语言模型,可以获得这m个单词分布的概率P(W1,...,Wm)。对于许多的自然语言处理的应用,可以估计不同短语的概率是极具应用价值的。语言模型可以应用于语音识别,机器翻译,语音标记,解析,手写识别,信息检索等领域。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

量子计算未来可期
workway・算法工程师
能审下稿吗,全是错别字