这篇文章讨论了最近于纽约召开的2016 ICML 大会上三个专项案例导引。分别是深度残差网络、语言理解的内存网络和非凸优化的最新进展及其学习启示,本文对这三个话题进行了详解。
这篇文章讨论了最近于纽约召开的2016 ICML 大会上三个专项案例导引。
国际机器学习大会(ICML)作为国际著名的机器学习学术会议,吸引了2000多名参与者。我代表 init.ai 公司参加了今年在纽约举行的大会。其中的三个案例导引尤其令人难忘,任何一个从事语音对话应用、聊天机器人和深入学习的工作者都会对这些话题感兴趣。
深度残差网络:更深的深度学习(Kaiming He )
语言理解的内存网络(Jason Weston)
非凸优化的最新进展及其学习启示(Anima Anandkumar)
我之前写过一篇有关残差神经网络研究的文章,但是 Kaiming 的演讲令我收获颇丰。他描述了增加神经网络深度的动机,并阐述了增加深度及初始解决方案方面的障碍。此外,他还展示了残差网络如何在初始解决方案的深度基础上提升精度,并证明了在快捷连接及后加法运算( post-addition operation)中使用身份映射的好处。最后,他将 ResNets 所得的实证结果推广到许多问题上。
Kaiming向我们展示了更深层神经网络如何赢得最近的 ImageNet 竞赛。然而将网络深度扩展到二十多层会降低性能,而一些技术足以达到相同效果。权重初始化及批量标准化都能够实现十层以上的网络训练。
权重初始化
权重初始化减少了向前及后向传播信号中的消失和爆炸问题。传播良好时,所有层的缩放方差成绩应当是恒定的。因此,应该将各层比例方差重新调整为1。对于线性激活算法,可以使用这个:
第 19 页 PPT
对于修正线性(ReLU)激活算法,可以使用这个:
第 20 页 PPT
对于一个22层的修正线性激活算法,用第二个等式进行初始化会更快收敛。如果是30层的同一个网络,则需要对所有层使用第二种形式,因为修正线性下降一半的输入空间。
第 21页PPT
批量标准化
批标准化是重新调整各层的迷你批。它可以降低对初始权重的训练敏感度。各层迷你批都需要计算输入x的平均值和标准差。然后各层重新调整其输入并应用于一个含有参数γ和β的(按比例)线性变换。
第 23页 PPT
尽管增加深度到另一个数量级会降低性能,然而若架构合理,可通过添加身份层获得同等精度的更深层网络。
剩余学习绕过这个障碍而将更高精度赋予更多层的网络。
第 37页 PPT
为了使网络再加深10倍到1000层,他用身份函数替换后加的映射。传统ResNets会在添加映射后使用修正线性激活算法。更深层次的ResNets使用身份。他用乘法演算了几个合理的后加激活函数结果,而性能有所降低。
身份激活将信号顺利地从第一层传播到第L层:
第 52 页 PPT
同理它也将误差顺利地从第L层传播到第1层:
第 54页 PPT
总结一下,Kaiming展示了在ResNets的传递特性在图像分类中的研究成果。ResNets特征在定位、检测和分割方面的运用使精度提高了8.5%。并且人体姿态评估和深度评估之间转换良好。ResNets在图像生成、自然语言处理、语音识别和广告方面展现出前景。
下面两个Kaiming所强调的实现(链接):
https://github.com/KaimingHe/deep-residual-networks (https://blog.init.ai/r/?url=https%3A%2F%2Fgithub.com%2FKaimingHe%2Fdeep-residual-networks)
https://github.com/facebook/fb.resnet.torch (https://blog.init.ai/r/?url=https%3A%2F%2Fgithub.com%2Ffacebook%2Ffb.resnet.torch)
用于语言理解的内存网络
Jason Weston 积极创建了一个端到端的对话代理。他详述了一个支持其研究进展的简单模型:内存网络。他提供了用一组玩具基准测试这个模型的方法,并将基准描述为一个不断升级的任务序列。Jason 展示了一种无需明确监管的改进版端到端学习型内存网络模型。他为现实世界提供了一个有关内存网络的表现优劣情况数据集,还描绘了一种有效扩展到大规模数据集的方法。他提出了两个修订本:一个使用关键字值对而另一个从文本中学习反馈,并以几个能够激励未来研究的问题结束。
首先,Jason 介绍了一组描述理想对话代理的信条。即它应该使用所有知识来执行复杂任务,能够做长时间交谈并了解对话中的动机,不仅可以在谈话中自我增值更能进行端到端的学习。
接着他讲到了内存网络(MemNNs),把输入与对内存的注意力结合起来以提供合理输出。他将第一次迭代限制在尽可能简单的范围内。内存网络由一个接受初始查询的周期性控制器模块构成。开始时,内存加载了一组真实案例,查询和真实案例都是单词包向量。该控制器预测警告向量(与一个监督信号)来选择真实案例,它读取所选取的内存来更新其隐藏状态。经过几次重复或跳行得到一个输出。输出排名可能响应了字典。误差信号通过输出和监督注意力片段沿网络向后传播。
第 9 页 PPT
他描述了一套难度不断升级的简单基准程序。每个基准包括一组短篇小说,每个短篇都是有关不断发展态势的一系列陈述。该模型应当能够阅读一个故事并回答若干相关问题。同一个基准故事测试同一个技能,不同基准的技能难度不断升级。
约翰在卧室。
鲍勃在办公室。
约翰去了厨房。
鲍勃旅行回家了。
约翰在哪?A:厨房
第 11页 PPT
这些基准有:
单一事实支持的仿真陈述型问题/答案
双事实支持的仿真陈述型问题/答案
三个事实支持的仿真陈述型问题/答案
两种参数关系:主体与客体
三种参数关系
一般疑问
算数
列表/集合
简单否定
不确定的知识
基本指代
连词
复合指代
时间把控
基本排除
基本感应
位置推理
尺寸推理
路径寻找
行为人动机推理
修正后的端到端内存网络模型无需监督就能进行学习。它使用了软注意(一种概率向量)来读取内存。因此它是完全可微的并可单独从输出监督中学习。更新版的模型仍旧败在了一些玩具基准任务中,而在一些现实世界的基准中却成功了,比如儿童书籍和新闻问题集。
最后的第三个修正版本只是通过文本反馈进行学习。它通过提供的反馈来学习预测出「教师」代理的回答。预测与实际反馈之间错误匹配将提供给模型一个训练信号。
第 86 页 PPT
此篇文章、代码及其数据集请参阅第 87 页 PPT。未来研究的问题请参阅第 10 页PPT, 第 83 页 PPT 和 第 88 页 PPT。
非凸优化
Anima Anandkumar 找到了实现非凸问题的保证全局优化的覆盖方法。机器学习问题作为优化问题,往往是非凸的。但是非凸问题有一个临界点的指数,这些鞍点阻碍了梯度下降进展和牛顿法则。她详述了定义不同类型关键点的条件,并给出了逃脱拟合良好的函数从而找到局部最优解的算法。这种拟合良好的函数是二阶可微的,并有非退化鞍点。随机梯度下降和Hessian方法能够有效逃脱鞍点。她展示了更高阶的关键点如何阻碍算法的进展,还详细例举了能够达到全局最优的特殊问题:矩阵特征分析与正交张量分解。
她展示了运用最大似然能够使张量分解取代通俗的机器学习方法:文档主题建模,卷积字典模型,嵌入式快速文本和神经网络训练。她在第87页幻灯片中给出了未来研究的步骤。如果你对这些方法感兴趣,可进一步阅读这篇来自她的研究小组offconvex 的详细报告。