Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

arXiv上五篇顶尖深度学习论文都讲了些什么?

Hugo Larochelle博士是一名谢布克大学机器学习的离休教授,社交媒体研究科学家、知名的神经网络研究人员以及深度学习狂热爱好者。自从2015年深秋,他开始在arXiv上撰写并公开分享他感兴趣的机器学习论文。在这篇文章发布之前,他已经分享了10篇论文笔记。   2015-11-09-8本文选取了arXiv上5篇Hugo阅读注释的机器学习论文笔记。为使我们更好地理解这些内容,每篇论文介绍了摘要并附上了Hugo的笔记。希望知名专家注释的深度学习论文能使一些很复杂的概念更易于理解。
1.非回溯递归网络训练
1. Training recurrent networks online without backtracking 作者:Yann Ollivier、Guillaume Charpiat arXiv上发布日期:2015年7月28日 摘要(摘录):我们引入「非回溯」算法来训练类似递归神经网络这样的动态系统的参数。这个算法在线上、无内存的条件下运行,因此不需要反向时间传播,有可拓展性,避免了保持当前状态参数的全向梯度所需要的大量的计算和内存成本。[…]先前在简单任务上的测试表明,相对于保持全向梯度,引入梯度随机近似算法后,似乎并没有给轨迹引入过多噪声,可以确认具有优良性能和保证在卡尔曼版本的非回溯算法上的可拓展性。 Hugo的两点注释(摘录):
RNN线上训练是一个宏大而未解决的问题。 人们现今使用的方法是把回溯截断为几个过去的步长,这更多是一种探索性的做法。 这篇论文在原则方法基础上更近了一步。我很欣赏方程式7的「秩一技巧」,很精致可爱!这也是这个方法的中心,把这些点联系到了一起,干得真好! 作者介绍这项工作只是初步的,他们确实并没有和截断回溯比较。我迫切希望他们在未来的工作中做下比较,并且,我不赞同『随机梯度下降理论在此处可以应用到』这个论点。
2.基于梯形网络的半监督学习
2. Semi-Supervised Learning with Ladder Network 作者:Antti Rasmus、Harri Valpola、Mikko Honkala、Mathias Berglund,、Tapani Raiko arXiv上发布日期:2015年7月9日 摘要:在深度神经网络中,我们把监督学习和无监督学习结合到一起。我们首先训练提出的模型在使用反向传播后可以同时最小化监督和无监督消耗函数,从而省去了逐层预先训练步骤的必要。我们的工作建立在Valpola2015年提出的梯形网络基础上,我们把这个模型和监督结合起来进行了拓展。我们展示了拓展模型在各种任务中:半监督条件下MNIST和CIFAR-10分类,半监督和全标签条件下的定量MNIST的排列过程,都达到艺术级性能。 Hugo的两点注释(摘录)
我认为,性能是这篇论文最令人兴奋的。在MNIST上,仅仅通过100个标签样本,它达到1.13%的错误率。这与训练集上训练的堆叠去噪自编码的性能相媲美(尽管它出现在这篇文章使用的ReLUs和批标准化之前)!尽管应用到许多标签的数据集的深度学习最新进展并不依赖任何无监督学习(不像在2000-2010年中期深度学习刚开始时),这篇论文确认了深度学习中一个当前思路,即无监督学习可能对半监督条件下低标签数据的成功起着关键作用。 不幸的是,作者披露实验中存在一个很小的问题:虽然他们使用很少的标签样本来训练,在验证集中模型选择的确使用了1万个标签。这的确很不现实。
3.面向基于神经网络的分析
3. Towards Neural Network-based Reasoning 作者:Baolin Peng,、Zhengdong Lu、 Hang Li、Kam-Fai Wong arXiv上发布日期:2015年8月22日 摘要(摘录):我们建议推出神经推理器,这是一个基于神经网络的推理自然语言的框架。只要给定一个问题,神经推理器能根据多种支持的事实进行推断并以特殊的方式找到答案。神经推理器具备:1)一个特别的互动池机制,允许它检验多重事实,2)一个深度架构,允许它在推理作业中模化复杂的逻辑关系。假定问题和事实并不存在特殊的结构,神经推断器能够容纳不同类型的推断和不同的语言表达形式。[…]经验研究表明,在两种不同人工作业上(定位和寻路),神经推断器能在很大程度上超越现有神经推断系统。 Hugo的两点注释(摘录):
在我看来,这篇论文最有趣的方面可能是证明通过使用一些从属任务,比如无监督的“起点”,可以显著提高在寻路任务上的表现。对我来说最令人兴奋的莫过于这篇论文中强调的,未来可能极其光明的研究方向。 我也欣赏文中模型展示的方式。理解模型并没有花费我太多的时间,实际上我发现他比记忆网络模型更易于消化,尽管这两个模型很相似。我认为这个模型确实比记忆模型更简单点,这很好。论文还提出这个问题的另一种解决办法,这个方法里不仅问题表征会随着正向传播更新,事实表征也会更新。
4.基于递归神经网络的定时采样序列预测
4. Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks 作者:Samy Bengio、Oriol Vinyals、Navdeep Jaitly、Noam Shazeer arXiv上发布日期:2015年6月9日 摘要(摘录):我们可以训练周期神经网络,使它在给予一定输入时产生符号序列,正如机器翻译和图像识别的最新结果例证的一样。当前训练它们的方法包括,在给定当前(递归)状态和先前符号时,最大化每个符号序列的相似性,。在推导上,未知的先前符号被模型产生的符号代替。训练和推导的内容不符会产生误差,误差会随着产生的序列迅速累积。我们提出了一个课程学习策略,从一个完全引导的方案,柔和过度到不完全引导方案,前者完全使用正确的前符号,后者主要使用系统自己生成的符号。一些序列预测作业试验显示这个方法可带来很大改善。 Hugo的两点注释(摘录):
超爱这篇论文。它甄别到目前序列预测训练方法的一个重要缺点,最重要的是,同时提出了一个简单有效的解决方案。我也相信这个方法在谷歌图像识别生成赢家系统以及微软COCO竞赛中起着不可忽视的作用。 关于定时采样有助的原因,我的另一个理解是:ML训练并不会告知模型自己产生的误差的相对质量。就ML而言,把高概率放在一个仅有一个错误令牌的输出序列和把相同概率放在一个有全部错误令牌的序列上同样糟糕。然而就图像识别来说,输出仅有一个错字的语句明显比有许多错字的语句(某种也反映在性能矩阵的东西,比如BLEU)更为可取。 通过训练模型在面对自身错误的系统稳定性,定时采样可确保误差不会累积,并且(帮助系统)做出八九不离十的预测。
5.LSTM:一个空间搜索奥德赛
5. LSTM_ A Search Space Odyssey 译者按:奥德赛是古希腊史诗中重要一部。主要讲述的是奥德赛因为激怒了海神波赛多而招致灾祸。最后利用智慧历经重重磨难得以回家的故事。文中指富有伟大意义却艰辛的科学探索之旅 作者:Klaus Treff、Rupesh Kumar Srivastava、Jan Koutník、Bas R. Steunebrink、 Jürgen Schmidhuber arXiv上发布日期:2015年5月13日 摘要(摘录):本文在3个代表性任务测试:语音识别,手写字体识别和复调音乐建模上,首次大规模使用8LSTM变量分析。使用随机搜索,单独优化每个作业的所有LSTM变量的超参数,并且使用强大的fANOVA结构评估它们的重要性。我们一共总结了5400次试验运行结果(CPU时间大概15年),这使我们的研究成为同类LSTM网络研究中规模最大的。我们的结果表明,在标准LSTM架构上没有一种变量能显著提高,并且可以证明忘记门和激励函数的输出结果是它最重要的部分。我们进一步观察到这些被研究的超参数是实质上是独立的,并在为它们的有效调整制定了指导方针。 2015-11-09-1 (译者按:如图所示是一个LSTM简易版模型。其中input gate输入门/output gate输出门负责管理输入及输出数值。forget gate忘记门负责选择性删除一些系统以前记住的数值来确保可以更好记住近期数值。图片来自CSDN Hugo的两点注释(摘录):
这是一篇很有用的(帮你)热身准备的文章。对任何想要学习LSTMs的人,我都会推荐这篇文章必读。首先,我发现它对LSTMs最初的发展史的描述很有趣并且很明了。但是,最重要的是,它展现了LSTMs一个很实用的图景,这不仅可以为初次使用LSTMs的奠定优良基础,还可以作为一个对LSTM每一部分重要性的很有见地的(数据支撑的)观点阐述。 基于fANONA的分析(目前我还不了解)很精炼。可能最让我震惊的发现是,势头的帮助实际上看起来并不大。研究超参数之间的二阶互动构思很巧妙(通过表明同时调整学习频率和隐藏层 可能并不重要,这很有见地)。图4中的描述陈列出学习频率/隐藏层大小/输入噪声变量和性能/训练时间之间可能存在的关系(带有不确定性)也是很有用的信息。
前向传播 2015-11-09-4 后向传播 2015-11-09-3 译者按:输入层(Input layer),众多神经元(Neuron)接受大量非线形输入信息。输入的信息称为输入向量。 输出层(Output layer),信息在神经元链接中传输、分析、权衡,形成输出结果。输出的信息称为输出向量。 隐藏层(Hidden layer),简称“隐层”,是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有多层,习惯上会用一层。隐层的节点(神经元)数目不定,但数目越多神经网络的非线性越显著,从而神经网络的强健性(robustness)图出自:CSDN  原文选自KDnuggets,机器之心编译出品,参与成员: Gabrielle、Sane
入门
暂无评论
暂无评论~