Yoshua Bengio深度学习暑期班,一流学者传道授课

harry-styles-bold-lips.jpg

通过借助逐步抽象的多层结构来表征数据的深度神经网络,已经显著改进了语音识别、物体识别、物体检测、预测药物分子活动等任务。通过构建分布式表示,深度学习可以发现大规模数据集的复杂结构(通过有监督、无监督或强化学习)。

这个暑期学习的目标受众是研究生、行业工程师以及已经具备一些机器学习基础知识(不一定是深度学习知识)并希望了解更多该领域飞速发展情况的研究人员。今年暑期学校由 Aaron Courville 和 Yoshua Bengio 组织。其中,Learning Deep Generative Models  (卡内基梅隆大学 Ruslan Salahutdinov )以及 Building Machines that Imagine and Reason: Principles and Applications of Deep Generative Models (Google Deepmind 的 Shakir Mohamed)是当下研究热点。

以下为受邀专家及其授课内容简介。机器之心整理打包了其中 17 个课程 PPT 文件,请点击此处下载

一、机器学习(Machine Learning

受邀专家:Doina Precup(加拿大麦吉尔大学)

我们提供了机器学习的总体介绍,旨在让所有参与者保持相同的学习进度,掌握概念定义和基本知识背景。在简要地概述各种机器学习问题后,我们讨论线性回归,它的目标函数和闭合解。我们讨论偏差-方差权衡( bias-variance trade-off )和过度拟合( overfitting )问题(以及恰当使用交叉验证法去客观衡量它们的表现)。我们讨论从概率论上将误差平方和( sum-squared error )视作在对数据生成过程的特定假设下最大化可能性,而且将 L2 和 L1 正则化方法视作贝叶斯分析法中的优先方法。我们简明地讨论贝叶斯方法论,方便你们学习。最后,我们讲解逻辑回归、交叉熵优化准则及其以第一和第二阶方法来求解的方案。

二、神经网络(Neural Networks

受邀专家:Hugo Larochelle (Twitter 以及加拿大谢布克大学)

在这门课上,我的授课内容涵盖了前馈神经网络的基本概念。内容分为两部分。在第一部分,我将讲解神经网络的正向传播和反向传播。特别是我将讨论前馈网络的参数设定,最常见的单元类型,神经网络的容量和如何计算用神经网络进行分类的训练损失的梯度( gradients of the training loss )。在第二部分,我将讨论对于通过梯度下降法( gradient descent )训练神经网络是必需的最终组件,然后讨论如今普遍用于训练深度神经网络的最新观点。因此我将讲解不同类型的梯度下降法算法,dropout ,batch normalization 和无监督预训练。

三、Theano 介绍 (Theano I & Practical Session)

受邀专家:Pascal Lamblin(蒙特利尔大学)

四、卷积神经网络和计算机视觉(Convolutional Neural Networks and Computer Vision

受邀专家:Rob Fergus (纽约大学)

这门课将综述卷积神经网络模型及其近年来对计算机视觉问题造成的巨大影响。

五、学会看见(Learning to See

受邀专家:Antonio Torralba (MIT)

对于计算机视觉来说,这是一个令人兴奋的时代。视觉处理领域新计算架构的成功,比如深度神经网络(如convNets)、触手可及的带有数百万标记样本的图像数据集(ImageNet, Places)以及最先进计算机视觉技术都在迅猛发展。如今,计算机视觉已经出现在众多商业产品中,比如数字相机、网页应用、安全应用等等。

convNets 成绩显著,也是当前许多识别任务所采用的所先进技术。但是,其表现为什么会如此出色?该网络习得的内部表征本质是什么?在这次授课中,我会向大家表明,这一内部表征是可以诠释的。特别是,物体探测器会出现在场景分配任务中。接下来,我会表明,可将周围音频信号作为一种监督信号,用于学习视觉表征。我们做到这一点,是利用了这一事实——视觉和听觉经常会告知我们相似的结构,比如,看到一个物体的同时也会听到其声响。我们训练一个 conNet 从视频帧中预测周围音频,我们也表明,通过这一过程,模型学会了视觉表征,它传达出了有关目标及场景的重要信息。

六、Introduction to Torch (Torch I & Practical Session)

受邀专家:Alex Wiltschko (Twitter)

Torch 是一个基于 Lua 语言的开源科学计算平台,专注于机器学习,尤其是深度学习。Torch 区别于其他数组函数库的地方在于 Torch 为 GPU 计算提供一流的支持,并且拥有清晰的、可交互的和命令式的风格。此外,通过「神经网络」库,Torch 为构建和训练神经网络提供广泛支持。尽管 Torch 从广泛的工业支持中获益,但它是一个归社区所有和社区开发的生态系统。

包括 Torch 神经网络在内的所有神经网络库,都依赖于自动微分法( automatic differentiation )去处理各种功能的复杂成分的梯度计算。我也将讲解自动微分法的一些基本背景知识,它是基于梯度优化( gradient-based optimization )的基本抽象概念,而且我还将演示 Twitter 在 torch-autograd 库中灵活执行自动微分法。

七、循环神经网络(Recurrent Neural Networks

受邀专家:Yoshua Bengio  (蒙特利尔大学)

这次授课的内容是关于循环神经网络的,也是用于解决序列计算以及序列建模(modelling sequences)的深度学习工具箱中的关键部分。开始,我会解释如何计算梯度(通过考虑数据结构在时间上的展开)以及如何设计不同架构来总结一个序列,生成一个一序列(通过在一个完全可观测的指导模型中进行祖先采样),或者学会将一个向量映射到一个序列、一个序列映射到另一个序列(长度相同或不同),或将一个序列映射到一个向量。长期依存,为什么会出现?如何减轻这一现象会是这次讨论的重点。其内容包括改变结构以及初始化、如何在这些方面合理特征化这一架构:循环或前馈深度,以及创造捷径或快速传播梯度的能力(在展开的数据结构中)。我们也会讨论开放的问题,其涉及用最大似然(teacher forcing, 指计算时间t状态时,用targets 在 t-1的值硬性作为隐含单位值,可以用来避免梯度膨胀)训练局限性,以及实现在线学习(不必要求backprop through time方式)。

八、推理、注意力和记忆(Reasoning, Attention 和 Memory

受邀专家:Sumit Chopra (Facebook)

过去几十年,在完成基本预测任务方面(比如,文本分类、图像说明以及语音识别),机器学习领域成绩斐然。但是,如何解决更深的(deeper)推理任务,仍然难以捉摸。实现更深的推理的关键因素就是在推论过程中,使用长期依存关系以及短期上下文语境。直到最近,最令人激动的机器学习模型仍然缺少读写部分长期记忆组件、并将此与推论无缝组合起来的简易方法。为了将记忆与推理结合起来,模型必须学会如何访问它,比如对记忆进行「注意」操作。

不过,大约在去年,这方面已经出现了一些值得注意的进展。在一些真实世界任务中,比如机器翻译、图像说明,发展出注意概念的模型已经展现出积极成果。在构造可以探索显示存储不同形式的计算模型方面,也出现激增趋势。为此,我会介绍这类中的一套模型。特别是,我会讨论记忆网络及其在各种给任务中的应用,比如,基于模拟故事的问答,完型填空式问题以及对话建模。我还会讨论其变种,包括,端到端记忆网络以及键值记忆网络。除此之外,我也会论及神经图灵机以及 Stack Augmented Recurrent Neural Networks。这次授课中,我会逐一讨论每个模型及其变种的利与弊。结束时,我会讨论一下这些模型以及潜在开放问题中仍然欠缺的东西。

九、Large Scale Deep Learning with TensorFlow

受邀专家:Jeff Dean ( Google)

过去几年,深度学习在许多不同领域(比如语音识别、自然语言理解、翻译、机器人技术以及医疗健康)取得了重要进步。在这次授课中,我会描述 Google Brain 小组(通常与谷歌其他部门和员工合作)在机器学习领域中的一些研究情况。作为我们研究的一部分内容,我们建造了两个系统。DistBelief 以及 TensorFlow,用来在大型数据集上训练大规模深度学习模型。我也会描述我们用来扩展这些模型(超越单个设备)的分布式系统技术,以及 TensorFlow 系统的设计决策和安装实现。

十、深度自然语言理解(Deep Natural Language Understanding

受邀专家:Kyunghyun Cho (纽约大学)

在这次演讲中,我首先会提出一个声明:通过构建一个更好的语言模型,会在很大程度上解决自然语言理解问题。然后我会解释三类应用gua的语言建模方法。它们分别是  n-gram 语言建模、前馈神经语言建模以及循环语言建模。我会从传统的 n-gram 语言模型谈到循环语言模型,讨论数据稀疏性概念以及通过持续空间表征的泛化问题。然后,我会继续讨论当前机器翻译中的一个新奇范式(基于循环语言建模),该范式通常被称为神经机器翻译。最后,我会谈到由于引入持续空间表征(在深度神经网络中),自然语言处理(理解)领域出现的三个新机遇。

十一、Beyond Seq2Seq with Augmented RNNs

受邀专家:Edward Grefenstette (Google DeepMind)

序列到序列模型最基础的形式遵循编码-解码范式,将源序列表征压缩编码成一个单独的向量表征,并将该表征解码成目标序列。这场演讲会讨论该压缩方法遇到的问题,包括注意力和外部可辨别存储在内的一些解决方案,以及这些扩增所需面对的问题。自然语言理解领域的例子会贯穿演讲始末。

十二、深度学习的 GPU 编程(GPU programming for Deep Learning

受邀专家:Julie Bernauer ( NVIDIA)

十三、强化学习介绍(Introduction to Reinforcement Learning

受邀专家:Joelle Pineau (麦吉尔大学)

十四、深度强化学习(Deep Reinforcement Learning

受邀专家:Pieter Abbeel (伯克利)

十五、学习深度生成模型(Learning Deep Generative Models

受邀专家:Ruslan Salahutdinov (卡内基梅隆大学)

在本辅导课中,我会讨论许多流行的深度生成模型的数学基础,包括受限玻尔兹曼机(RBMs)、深度玻尔兹曼机(DBMs)、亥姆霍兹机、变分自动编码器(VAE)和重要性加权自动编码器(IWAE)。我会进一步证明在视觉物体识别,信息检索及自然语言处理应用中,这些模型能从高维度数据中提取出有意义的表征。

十六、开发能够「想象」与「推理」的机器:深度生成模型的原理与应用(Building Machines that Imagine and Reason: Principles and Applications of Deep Generative Models

受邀专家:Shakir Mohamed ( Google DeepMind)

深度生成模型为无监督学习问题提供了一种解决方案,无监督学习这类机器学习系统需要从无标记的数据流中发现出隐藏的结构。因为这些模型是生成式的,所以它们能够对自己所应用的世界生成丰富的意象,后者可以探索数据中的变化,推理所在世界的结构和行为,并从根本上帮助制定决策。该辅导课将关注如何使用深度生成模型构建有想象力的机器学习系统,和它们所支持的概率推理类型,以及它们被应用到决策制定和行动的方式。

深度生成模型拥有广泛应用,包括密度估计、图象降噪和修复、数据压缩、景物理解、表征学习、3D 景物构造、半监督分类、分级控制等等。在探索这些应用之后,我们会对生成式模型有个大致概念,该模型有三种类别:完全记录模型、变换模型和潜变量模型。不同模型有不同的推理原则,我们会探索不同的可选项。不同模型与推理组合产生不同算法,包括自动回归分布估计、变分自动编码器和生成式对立网络。虽然我们会强调深度生成模型,特别是潜变量的那类,但该辅导课的目的是探索贯穿机器学习的一般原则、工具和技巧。被重复讨论的主题包括贝叶斯深度学习、变分近似法、memoryless and amortised inference、和随机梯度估计。最后我们会着重讨论那些之前没被讨论过的主题,并想象生成模型的未来。

十七、灵感之外:关于构建智能机器的 5 节生物课(Beyond inspiration: Five lessons from biology on building intelligent machines

受邀专家:Bruno Olshausen (伯克利)

现在能够展现出真正智能和自动化行为的系统只有生物,如果我们希望构建能做出这类智能行为的机器,那尽可能多地学习这些系统是如何工作的就非常重要。灵感是个好的出发点,但真正的进步要求更多对神经系统信息处理原则的扎实了解。在这里我主要讨论 5 个我认为会特别有前景的研究领域:1)微神经系统的知觉和识别研究,如黄蜂和跳蜘蛛,2)开发好的树突非线性信号集成计算模型,3)对稀少、过完备的感觉输入表征的使用,4)理解反馈在神经系统中的计算角色,和 5)获取有关世界的信息的积极传感系统的使用。

十八、计算神经科学 II 和深度学习理论(Computational Neuroscience II and Deep Learning Theory)

受邀专家:Surya Ganguli (斯坦福大学)

入门入门课程Yoshua BengioMILA
暂无评论
暂无评论~