Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「神经常微分方程」提出者之一David Duvenaud:如何利用深度微分方程模型处理连续时间动态

2020 WAIC·开发者日将于7月10日-11日线上举办。多伦多大学助理教授、向量学院联合创始人、NeruIPS 2018 最佳论文奖得主,将带着对微分方程和连续时间的最新思考出现在 WAIC 开发者日。

提到 David Duvenaud 你或许有些陌生,但最近大热的「神经常微分方程」想必你一定听说过。

《Neural Ordinary Differential Equations》获得 NeruIPS 2018 最佳论文奖,David Duvenaud 正是该论文的通讯作者,也是论文一作陈天琦的导师。


David Duvenaud 是多伦多大学向量学院的创始人之一,能源预测和贸易公司 Invenia 的联合创始人,目前在多伦多大学担任计算机科学助理教授。

他在剑桥大学获得博士学位,后在哈佛大学 Intelligent Probabilistic Systems 实验室完成博后工作。

目前,他在多伦多大学教授概率学习和推理、机器学习统计方法、可微分推断和生成模型等课程,指导的学生有陈天琦、Jesse Bettencourt、Dami Choi、Will Grathwohl、Eric Langlois、Jonathan Lorraine、Jacob Kelly 和 Winnie Xu。

David Duvenaud 与微分方程的羁绊

David Duvenaud 的主要研究方向是连续时间模型、隐变量模型和深度学习。近年来,他的工作和微分方程产生了紧密联系。

深度学习能够与微分方程相结合?是的。在 NeruIPS 2018 获奖论文中,陈天琦、David Duvenaud 等人将二者相结合,进行架构创新,提出一类新型深度神经网络「神经常微分方程」(ODEnet)。它不拘于对已有架构的修修补补,而是完全从另外一个角度考虑如何以连续的方式借助神经网络对数据建模。

借助微分方程,ODEnet 将神经网络离散的层级连续化了,因此反向传播也不再需要一点一点传、一层一层更新参数

论文参与者认为,既然残差连接就是常微分方程(ODE)的离散化,那么常规神经网络的前向传播过程岂不就是微分方程给定初值解末值的过程?如果用业界成熟的微分方程求解器(ODE Solver)解某个 ODE,这不就能代替前传和反传么?

于是他们在 ODENet 中使用神经网络参数化隐藏状态的导数,而不是如往常那样直接参数化隐藏状态。这里参数化隐藏状态的导数就类似构建了连续性的层级与参数,而不再是离散的层级。因此参数也是一个连续的空间,我们不需要再分层传播梯度与更新参数

这篇论文证明了常微分方程可以解决复杂问题,算是对之前相关研究的一次总结。

该论文获奖后获得了大量关注,而后来的一件事又把它推到了风头浪尖。

获奖一年后,David Duvenaud 在 NeruIPS 2019 大会上发表演讲,回顾了 NeruIPS 2018 获奖研究 ODENet。

在演讲中,他阐明了 ODENet 论文的几点问题,如论文最终选择「Neural Ordinary Differential Equations」作为标题是因为它短小精悍,更容易引发关注;做这项研究的动机是为了讨好 Dougal Maclaurin、Matthew Johnson 这些前辈;在对比不同方法的参数效能时,该研究没有对基线方法进行微调;该研究认为使用 ODE 求解器能够根据给定的误差容忍度选择适当的步长逼近真实解,但 ODE 领域研究者认为,ODE 求解器并不总是有效……

这段演讲再次引发了大量讨论,很多人表示理解,并认为 David Duvenaud 非常坦诚。

不管是否存在争论,David Duvenaud 对微分方程的研究没有停下。

发表 ODENet 后不久,David Duvenaud 等人再次利用常微分方程提出新架构——可逆残差网络。这次他们利用 ResNet 作为常微分方程的 Euler 离散化,并证明通过简单地改变标准 ResNet 的归一化机制就可以构建可逆 ResNet。

2019 年 12 月,David Duvenaud 与陈天琦合作发表论文《Neural Networks with Cheap Differential Operators》,探讨了如何使用廉价的可微算子处理神经网络架构的梯度计算。

今年初,David Duvenaud 等人发布论文《Scalable Gradients for Stochastic Differential Equations》,将计算常微分方程解的梯度的 adjoint sensitivity 方法应用于随机微分方程。

微分方程与连续时间动态

从 NeruIPS 2018 最佳论文「神经常微分方程」到基于常微分方程构建的可逆残差网络,再到今年年初的《Scalable Gradients for Stochastic Differential Equations》,David Duvenaud 与常微分方程的羁绊不可谓不深。

在不久后举行的 2020 年世界人工智能大会云端峰会开发者日专场,David Duvenaud 将分享他对连续时间模型的思考,此次演讲同样涉及微分方程。

离散时间和连续时间差别巨大。许多现实数据,如病历、客户交互或金融交易,是以不规则时间间隔记录的。但是,大部分深度学习时序模型(如循环神经网络)要求数据以规则的时间间隔记录,如每小时记录一次。

那么如何处理连续时间动态呢?

David Duvenaud 将在此次演讲中介绍,利用深度微分方程模型来处理连续时间动态方面的近期进展,这类模型可以拟合新的基于时序的丰富参数化分布。此外,该演讲还将讨论这类模型的优缺点,以及它们在病历和运动捕捉数据上的效果。


关于2020 WAIC·开发者日

2020 WAIC·开发者日将于 7月10日-11日线上举办,设置主论坛、分论坛、高峰对话、开发者日百度公开课、开源开放Demo Day、黑客马拉松等多个环节。

目前,我们已公布了主论坛、百度公开课、开源开放Demo Day的日程介绍,更多精彩日程揭秘,敬请关注后续报道。


2020 WAIC· 开发者日全程线上举办,直播链接将于 7 月初公布。但在主论坛期间,我们计划在上海组织一场小型看直播、聊人生的现场活动,时间 7月11日13:00—18:15,坐标上海世博中心只限100人。同时我们准备了一些书籍与礼品在现场赠送,具体活动信息详见开发者日主论坛日程介绍

如何报名?

添加机器之心小助手微信,备注“现场”,小助手会给你发邀请码和报名链接,以及邀请你进现场面基群。

不来现场还想进群交流?添加小助手后备注“开发者日”就可以了。

产业David DuvenaudWAIC微分方程多伦多大学
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

导数技术

导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x_0) 或 df(x_0)/dx。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
陈天琦人物

多伦多大学博士,导师为David Duvenaud。2018年,陈天琦等人的论文《Neural Ordinary Differential Equations》获得此届NeurIPS最佳论文奖,引起了极大的关注。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~