目录:
Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks
InterpretML: A Unified Framework for Machine Learning Interpretability
ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
Language Models as Knowledge Bases?
Deep Learning For Symbolic Mathematics
Quantum Supremacy Using a Programmable Superconducting Processor
Do Massively Pretrained Language Models Make Better Storytellers?
论文 1:Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks
作者:Zhonghui You、Kun Yan、Jinmian Ye、Meng Ma、Ping Wang
论文链接:https://arxiv.org/abs/1909.08174
摘要:对滤波器进行剪枝是一种最为有效的、用于加速和压缩卷积神经网络的方法。在这篇论文中,来自北大的研究者提出了一种全局滤波器剪枝的算法,名为「门装饰器(gate decorator)」。这一算法可以通过将输出和通道方向的尺度因子(门)相乘,进而改变标准的 CNN 模块。当这种尺度因子被设 0 的时候,就如同移除了对应的滤波器。研究人员使用了泰勒展开,用于估计因设定了尺度因子为 0 时对损失函数造成的影响,并用这种估计值来给全局滤波器的重要性进行打分排序。接着,研究者移除哪些不重要的滤波器。在剪枝后,研究人员将所有的尺度因子合并到原始的模块中,因此不需要引入特别的运算或架构。此外,为了提升剪枝的准确率,研究者还提出了一种迭代式的剪枝架构——Tick-Tock。
图 1:滤波器剪枝图示。第 i 个层有 4 个滤波器(通道)。如果移除其中一个,对应的特征映射就会消失,而输入 i+1 层的通道也会变为 3。
图 2:Tick-Tock 剪枝框架图示。
图 3:组剪枝展示。同样颜色的 GBN 属于同一组。
推荐:本文是北大和 Momenta 的一篇论文,借用 LSTM 的门控制思想对神经网络进行剪枝,是一种新颖的剪枝方法,读者朋友可借鉴。
论文 2:InterpretML: A Unified Framework for Machine Learning Interpretability
作者:Harsha Nori、Samuel Jenkins、Paul Koch、Rich Caruana
论文链接:https://arxiv.org/abs/1909.09223v1
摘要:InterpretML 是一个为实践者和研究者提供机器学习可解释性算法的开源 Python 软件包。InterpretML 能提供以下两种类型的可解释性:(1)明箱(glassbox),这是针对可解释性设计的机器学习模型(比如线性模型、规则列表、广义相加模型);(2)黑箱(blackbox)可解释技术,用于解释已有的系统(比如部分依赖、LIME)。这个软件包可让实践者通过在一个统一的 API 下,借助内置的可扩展可视化平台,使用多种方法来轻松地比较可解释性算法。InterpretML 也包含了可解释 Boosting 机(Explanable Boosting Machine,EBM)的首个实现,这是一种强大的可解释明箱模型,可以做到与许多黑箱模型同等准确的性能。
软件架构和代码
推荐:本文是微软开源工具的论文,用于帮助人们使用科技史的模型进行机器学习。
论文 3:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
作者:谷歌团队
论文链接:https://openreview.net/pdf?id=H1eA7AEtvS
摘要:通常而言,在预训练自然语言表征时增加模型大小可以提升模型在下游任务中的性能。但在某些情况下,由于 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等原因,进一步增加模型大小的难度也随之增加。所以,为了解决这些问题,来自谷歌的研究者提出通过两种参数削减(parameter-reduction)技术来降低内存消耗,加快 BERT 的训练速度。综合实验表明,ALBERT 的扩展效果要优于原始 BERT。此外,他们还使用了聚焦于句间连贯性建模的自监督损失,并证明这种损失对下游任务中的多语句输入有持续帮助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测试上都取得了新的 SOTA 效果,并且参数量少于 BERT-large。
表 2:本文中用到的 BERT 和 ALBERT 模型配置。
推荐:虽然大型预训练语言模型在很多 NLP 任务上取得了进展,但压缩参数一直是研究者的目标。谷歌团队这回再次发力,将 BERT 进行了明显的参数缩减,但依然超越了现有的 SOTA——XLNet 模型。这一论文值得读者阅读。
论文 4:Language Models as Knowledge Bases?
作者:Fabio Petroni、Tim Rocktaschel、Patrick Lewis、Anton Bakhtin1Yuxiang Wu、Alexander H. Miller、Sebastian Riedel
论文地址:https://arxiv.org/abs/1909.01066v2
摘要:近来在大型与来哦中预训练的语言模型帮助 NLP 下游任务提升了性能表现。当学习语言知识的同时,这些模型可能存储了训练集中的关联知识,可以回答一些填空方面的问题。
作为结构化的知识基础,语言模型有很多优势:它们不需要抽取工程,使得使用者可以获得开放的关系类别,也可以容易地扩展更多数据,也不需要监督训练。本文中,研究者探究了一系列 SOTA 语言模型在不微调的情况下作为关系知识表示的能力。
语言模型作为知识表示的方法。
推荐:本文分析了语言模型作为关系知识表示的能力,为下一步利用预训练模型进行知识推理和问答的研究提供了一些思路。
论文 5:Deep Learning For Symbolic Mathematics
作者匿名
论文地址:https://openreview.net/forum?id=S1eZYeHFDS¬eId=S1eZYeHFDS
摘要:神经网络在解决统计或拟合问题时较计算和解决符号数据更为优秀。在本文中,研究者表明,神经网络在解决一些复杂的数学问题上表现很好,例如符号积分和解决微分方程。研究者提出了一种语法,可以表示这些数学问题,以及一种用于生成大数据集的方法,用于训练一个 seq2seq 模型。研究者提出的方法在表现上超过了商业代数计算软件的性能,如 Matlab 或 Mathematica。
推荐:神经网络强大的拟合能力使其在机器学习中占有一席之地。本文创新性地使用神经网络拟合数学问题,且计算速度很快。
论文 6:Quantum Supremacy Using a Programmable Superconducting Processor
作者:Eleanor G. Rieffel
论文地址:https://drive.google.com/file/d/19lv8p1fB47z1pEZVlfDXhop082Lc-kdD/view
摘要:量子计算机的诱人前景在于量子处理器上执行某项计算任务的速度要比经典处理器快指数倍,而根本性的挑战是构建一个能够在指数级规模的计算空间中运行量子算法的高保真度处理器。在这篇论文中,谷歌研究者使用具有可编程超导量子比特的处理器来创建 53 量子比特的量子态,占据了 2^53∼10^16 的状态空间。重复性实验得到的测量值对相应的概率分布进行采样,并利用经典模拟加以验证。
谷歌的量子处理器大约只需 200 秒即可对量子电路采样 100 万次,而当前最优的超级计算机完成同样的任务大约需要 1 万年。
图 1:Sycamore 量子处理器。a. 该处理器的布局,有 54 个量子比特,每个量子比特用耦合器(蓝色)与四个最近的量子比特相连;b. Sycamore 芯片的光学图像。
推荐:本文昭示着量子计算领域的进一步发展,为量子计算的实际应用奠定了研究基础。论文依旧是谷歌相关团队,足见其科研实力强大。
论文 7:Do Massively Pretrained Language Models Make Better Storytellers?
作者:Abigail See、Aneesh Pappu、Rohun Saxena、 Akhila Yerukola、 Christopher D. Manning
论文地址:https://arxiv.org/pdf/1909.10705
摘要:在大量文本上训练过的大型神经语言模型在很多种 NLP 任务上都取得了很好的表现。但是,这些模型在自然语言生成任务上的能力依然不够明确。一些线索说明这些模型可以生成高质量文本,但是并没有关于这些模型生成能力的具体研究。本文中,研究者对比了这些预训练模型,包括 GPT2-117 和现在的神经故事生成模型。通过多种指标评估生成文本后,研究人员发现了一些可以很好生成故事的模型,以及一些表现不太好的模型。研究人员表示,虽然 GPT2-117 在语境上更好,对事件的顺序更敏感,而且使用了更多不常用的词汇,但是它在使用最大似然解码算法时只能生成重复的、没有多样性的文本。
不同模型生成的故事文本。
推荐:预训练语言模型能讲好故事吗?本文说明:依然不能。故事不仅关乎语法和语序,还有隐式地表意和情感信息和额外的先验知识作为基础。目前很多文本生成的模型仅仅只是继续续写文本而已,它们既没有理解文本的含义,也无法组织起连贯有趣的语言。