Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

ICLR 2022 | 提高子网络「中奖」准确率,美国东北大学、Meta等提出对偶彩票假说

来自美国东北大学、圣克拉拉大学和 Meta 的研究者提出对偶彩票假说(Dual Lottery Ticket Hypothesis,DLTH),随机的子网络都可以被转换成中奖彩票。

稀疏网络训练一直是深度学习中训练神经网络的难点。随着网络规模和数据量的不断增加,训练成本也不断提升。如何有效的训练稀疏网络来维持合理的训练开销变得十分重要。另一方面,找到有效的稀疏网络训练方法对理解神经网络的工作原理同样很有帮助。

近日,来自美国东北大学,圣克拉拉大学和 Meta 的研究者提出对偶彩票假说(Dual Lottery Ticket Hypothesis,DLTH)。不同于彩票假说(Lottery Ticket Hypothesis,LTH)验证了随机网络中存在好的子网络(中奖彩票),DLTH 验证了在给定的随机网络中,随机的子网络都可以被转换成中奖彩票。

文章已被 ICLR 2022 接收。代码已开源。

图片


  • 论文地址:https://arxiv.org/abs/2203.04248

  • OpenReview: https://openreview.net/forum?id=fOsN52jn25l

  • 论文代码:https://github.com/yueb17/DLTH


相关研究

2019 年,来自 MIT 的研究人员提出彩票假说(Lottery Ticket Hypothesis):给定一个初始化网络,其中存在一个彩票子网络(winning ticket)在被单独训练的情况下达到很好的效果。这个子网络可以用传统的预训练加剪枝的方法得到。LTH 还是用了 iterative magnitude pruning 的策略来找到更好的彩票子网络。LTH 揭示了神经网络与其稀疏子网络之间的关系,开启了一个研究稀疏网络训练的新方向。

给定随机初始化的神经网络,随机的子网络并不能达到理想的训练效果。而 LTH 中的彩票子网络是通过剪枝预训练网络得到的。但是 LTH 只验证了彩票子网络的存在性,并没有探索彩票网络的普遍性。相对应的,通过预训练加剪枝的方法找到的彩票子网络的结构是无法控制的。这同样限制了彩票网络在实际应用中的潜力。

对偶彩票假说

研究者受 LTH 启发,探索了其对偶问题并提出对偶彩票假说 DLTH:给定随机初始化的网络,其随机挑选的子网络可以被转换成彩票子网络,并得到与 LTH 找到的彩票子网络相当甚至更好的准确率

图片


DLTH 与 LTH 的关系与比较如下图所示:

图片


同时,DLTH 提出了随机子网络变换(Random Sparse Network Transformation,RST)来验证提出的 DLTH。

随机子网络变换(RST)

给定随机初始化网络并确定随机子网络结构,RST 借助网络中其余的权重(masked weights)来帮助被选中的子网络(randomly selected sparse network)进行变换。具体而言,RST 通过借助彩票池中所有的信息把一张随机彩票转换成了中奖彩票。RST 通过训练完整的网络来完成。在训练过程中,RST 通过在未被选中的权重上添加一个逐渐增加的正则项,从而这部分权重的幅值逐渐变小,这部分权重的作用也逐渐被抑制,并在变换结束之后完全去掉这部分权重。而被选中的子网络则进行正常训练。最终得到被转换好的稀疏子网络。这一过程可以理解为 RST 把信息从网络的其他部分挤到目标子网络中(information extrusion),如下图所示:

图片


实验

RST 方法在 cifar10,cifar100 以及 Imagenet 数据集上进行了测试,模型选择 ResNet56 和 ResNet18。对比方法包括 LTH 及其变体,预训练加剪枝,以及随机子网络 scratch training。实验结果如下图所示:

图片


图片


作者发现 RST 方法相比较于 LTH,普遍可以得到更好至少相当的结果,无论使用 one-shot 策略还是 iterative 策略。因此,所使用的 RST 很好的验证了文章提出的 DLTH。直观比较如下图所示:

对比 Pruning at Initialization(PI)

PI 同样在随机网络中选择子网络进行训练。因此,PI 相关的研究同样也是重要的对比方法。文章中,作者选择了 Gradient Signal Preservation (GraSP)作为 PI 方法的代表,与提出的 RST 进行比较。具体结果如下图所示:

图片


实验结果表明相比较于 GraSP,RST 方法普遍取得了更好的效果。

结论

本文从彩票假说(LTH)的研究视角出发,提出其对偶形式:对偶彩票假说(DLTH),从更广泛的角度探究了神经网络与其稀疏子网络之间的关系。相应的,文章提出了随机子网络变换(RST)的方法来验证 DLTH。在 benchmark 数据集与网络上和众多对比方法的比较表明 RST 方法有效的验证了文章所提出的对偶彩票假说(DLTH)。
理论ICLR 2022
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

推荐文章
暂无评论
暂无评论~