揭开神经网络神秘面纱,Uber 技术论文详解彩票算法
Uber 今日更新技术博客。博客文章介绍道,Uber 应用神经网络改善对城市中人和物之间交通运动的理解。在其他案例中,Uber 使用神经网络通过自然语言模型实现更快的客户服务响应,并通过跨城市的需求的时空预测来缩短用户等待时间,Uber 在此过程中已经开发了基础设施来扩展训练并支持更快的模型开发。Uber 最近发表的旨在揭开神经网络神秘面纱,以下是论文概要:Frankle&Carbin 最近发表的「Lottery Ticket Hypothesis」论文表明,创建稀疏网络(保持较大权重)的简单方法可以产生从头开始训练的模型,但只能从相同的初始权重开始。这些网络的性能通常超过非稀疏基本模型的性能,但原因尚不清楚。在本文中,我们研究了彩票(LT)算法的三个关键组成部分,表明每个都可以在不影响整体结果的情况下显著变化。消除这些因素可以为 LT 网络的表现提供新的见解。我们展示了为什么将权重设置为零很重要,为重新初始化网络列表所需的符号,以及为什么屏蔽行为像训练一样。最后,我们发现可以应用于未经训练的随机初始化网络的超级掩模或掩模的存在,以产生性能远远高于偶然性的模型(MNIST 为 86%,CIFAR-10 为 41%)。