路雪 王淑婷作者

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

深度学习顶会 ICLR 2019 的两篇最佳论文现已放出,来自蒙特利尔大学、微软研究院和 MIT CSAIL 的研究者获得了最佳论文奖。其中一篇最佳论文探讨自然语言处理问题,提出利用神经元排序将对自然语言层级结构的考虑纳入网络。另一篇最佳论文探讨了模型压缩问题,提出了一个新的概念:彩票假设。

一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计,ICLR 2019 共收到 1591 篇论文投稿,相比去年的 996 篇增长了 60%,其中 oral 论文 24 篇,poster 论文 476 篇。

目前,ICLR 2019 的最佳论文已经发布。来自蒙特利尔大学 MILA 研究所、微软研究院的论文《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》和来自 MIT CSAIL 研究者的论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》夺得本届大会的最佳论文奖项。

论文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

  • 作者:Yikang Shen、Shawn Tan、Alessandro Sordoni、Aaron Courville(蒙特利尔大学 MILA 研究所、微软研究院)

  • 论文地址:https://openreview.net/forum?id=B1l6qiR5F7

摘要:自然语言是层级结构的:较小的单元(如词组)被嵌套在较大的单元(如子句)内。当较大的成分结束时,嵌套在其内部的较小成分也必须是封闭的。尽管标准 LSTM 架构允许不同神经元以不同时间尺度追踪信息,但它对建模句子成分层级没有明确的偏置(explicit bias)。

本文提出通过对神经元排序的方式添加此类归纳偏置;master input 向量和遗忘门确保在给定神经元更新时,紧随其后的所有神经元也都得到更新。这一新型循环架构 ordered neurons LSTM (ON-LSTM) 在四种不同任务上获得了优秀性能,分别是:语言建模、无监督解析、目标句法评估和逻辑推理。

图 2:句子成分解析树和 ON-LSTM 隐藏状态之间的对应。

表 1:在 Penn Treebank 语言建模任务上,ON-LSTM、LSTM 等模型在验证集和测试集上的模型困惑度对比。

表 2:ON-LSTM 等模型在完整 WSJ10 和 WSJ 测试集上的无标注解析 F1 结果。

表 3:ON-LSTM 和 LSTM 在每个测试案例中的整体准确率

图 3:在逻辑数据中的短序列 (≤ 6) 上训练模型的测试准确率

论文:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

  • 作者:Jonathan Frankle、Michael Carbin

  • 论文地址:https://openreview.net/forum?id=rJl-b3RcF7

摘要:神经网络剪枝技术可将网络参数量减少 90%,进而在不牺牲准确率的前提下减少存储需求、提升推断的计算性能。然而现有经验表明,剪枝生成的解析架构从一开始就很难训练,尽管解析架构同样可以提升训练性能。

我们发现,标准的剪枝技术会自然地发现子网络,这些子网络经过初始化后能够有效进行训练。基于这些结果,我们提出了「彩票假设」(lottery ticket hypothesis):密集、随机初始化的前馈网络包含子网络(「中奖彩票」),当独立训练时,这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率

「中奖彩票」赢得了「初始化彩票」:它们的连接具有使训练非常高效的初始权重。我们提出了一种识别中奖彩票的算法,并用一系列实验来支持彩票假设以及这些偶然初始化的重要性。我们发现在 MNIST 和 CIFAR10 数据集上,「中奖彩票」网络的大小不及全连接、卷积前馈架构的 10%-20%。而且,这种「中奖彩票」比原始网络学习速度更快,测试准确率也更高。

那么,应该如何确定「中奖彩票」呢?该研究提出了以下四个步骤:

图 5:当迭代剪枝并再次随机初始化时,Conv-2/4/6 架构的早停迭代、测试和训练准确率。每条实线是五次试验的平均结果;每条虚线是 15 次再初始化(每次试验 3 次再初始化)的平均结果。

图 6:当用 dropout 迭代剪枝和训练时,Conv-2/4/6 在早停时的测试准确率和早停迭代。虚线代表的是没用 dropout 训练的相同网络(图 5 中的实线)。Conv-2 的学习率为 0.0003,Conv-4 和 Conv-6 的学习率为 0.0002。

图 7:VGG-19 在迭代剪枝时的测试准确率(分别是 3 万次、6 万次、11.2 万次迭代)。

图 8:Resnet-18 在迭代剪枝时的测试准确率(分别是 1 万次、2 万次、3 万次迭代)。

理论深度学习MILAMIT微软最佳论文ICLR 2019
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

解析树技术

解析树是一个内部结构,由编译器或解释器在解析一些语言结构时创建,解析也被称为“语法分析”。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

遗忘门技术

LSTM或GRU中特有的机制

推荐文章
暂无评论
暂无评论~