Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

路 李亚洲报道

2018 ACM博士论文奖公布:伯克利博士获奖,清华姚班马腾宇荣誉提名

今日,2018 ACM 最佳博士论文奖公布,UC 伯克利博士生 Chelsea Finn 凭借论文《Learning to Learn with Gradients》荣获此奖。来自微软的 Ryan Beckett、本科毕业于清华姚班的马腾宇获得荣誉提名。

今日,ACM 公布最佳博士论文奖,来自 UC 伯克利的博士生 Chelsea Finn 凭借论文《Learning to Learn with Gradients》摘得桂冠。这篇论文介绍了一种基于梯度的新型元学习算法,帮助深度网络基于小型数据集解决新任务,该算法可用于计算机视觉强化学习机器人学等领域。

Chelsea Finn 也在社交平台上表达了自己获奖后的心情:

「很荣幸可以获得今年的 ACM 最佳博士论文奖。感谢我的导师和同事在我博士期间给予的支持和友谊,尤其是导师 Sergey Levine(UC 伯克利助理教授)和 Pieter Abbeel(UC 伯克利教授)。

2018 ACM 最佳博士论文

深度学习改变了人工智能领域,给语音识别计算机视觉机器人学带来了显著进步。但是,深度学习方法需要大量数据,而这在医疗成像、机器人学等领域中并不容易获取。

元学习是目前机器学习领域一个令人振奋的研究趋势,它解决的是学习如何学习的问题,允许机器基于少量数据学习。元学习算法使用之前的数据学习如何快速适应新任务,从而「学习如何学习」。

但是,元学习方面最初的一些研究聚焦于设计复杂的神经网络架构。Chelsea Finn 在这篇博士论文中,介绍了一类新方法 —— 与模型无关的元学习(model-agnostic meta-learning,MAML),该方法使计算机科学家免除了手动设计复杂架构的工作。

BAIR 在 2017 年 7 月发布的一篇博客中介绍了 MAML 方法,参见:与模型无关的元学习,UC Berkeley 提出一种可推广到各类任务的元学习方法,相关论文《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》被 ICML 2017 接收

ACM 在获奖通知中表示:「MAML 方法在该领域产生了巨大影响,并在强化学习计算机视觉以及机器学习的其他领域中得到了广泛应用。」

获奖论文《Learning to Learn with Gradients》全文链接:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-105.pdf

为了研究「学习如何学习」这个问题,这篇论文首先对元学习问题及其术语、元学习算法的特性给出了清晰正式的定义。然后基于这些基础定义,展示了一种新方法 —— 与模型无关的元学习(MAML),该方法能够将基于梯度的优化潜入到学习器中。

与之前的元学习方法不同,该方法聚焦于获取可迁移表征,而不是好的学习规则。由于 MAML 方法学得的表征能够控制更新规则,因此该方法既继承了使用固定优化作为学习规则的优秀特性,同时还保留了完整的表达性(full expressivity)。

像其他元学习方法一样,MAML 需要在各种任务上进行训练。该方法需要学习训练一种可以很快适应新任务的方法,并且适应过程还只需要少量的梯度迭代步。元学习器希望寻求一个初始化,它不仅能适应多个问题,同时适应的过程还能做到快速(少量梯度迭代步)和高效(少量样本)。

这种方法十分简单,并且有很多优点。MAML 方法并不会对模型的形式作出任何假设。它十分高效,因为其没有为元学习引入其他参数,并且学习器的策略使用的是已知的优化过程(如梯度下降等)而不是从头开始构建一个。所以,该方法可以应用于许多领域,包括分类、回归和强化学习等。

下图展示了 MAML 方法的可视化图,即寻找一组具有高度适应性的参数 θ 的过程。在元学习(黑色粗线)过程中,MAML 优化了一组参数,因此当我们对特定任务 i(灰线)进行梯度迭代时,参数将更接近任务 i 的最优参数 φ_i。

MAML 方法图示。

该论文还展示了,通过将元学习元素和基于深度模型的强化学习、模拟学习和逆强化学习相结合,该方法可扩展至动作控制(motor control)应用。从而构建适应动态环境的模拟智能体,使得真实的机器人能够通过观看人类视频学习如何控制新物体,人类仅需几张图像即可向机器人传达目标。论文最后讨论了元学习的开放性问题和未来方向,指出现有方法的关键缺陷以及限制性假设。

Chelsea Finn 其人

Chelsea Finn 年纪轻轻就已成为机器人学习领域最知名的专家之一。她开发了很多教机器人控制和操纵物体的高效方法。例如,她在这篇获奖论文中使用 MAML 方法教机器人抓取和放置物体技能,该过程中仅仅用了一个人类演示视频中的原始像素。

Finn 现任谷歌大脑研究科学家,并在 BAIR 实验室进行博士后研究。2019 年秋,她将成为斯坦福大学全职助力教授。Finn 在加州大学伯克利分校获得电气工程与计算机科学博士学位,在 MIT 取得电气工程与计算机科学学士学位。

Chelsea Finn 有多篇论文发表在 ICML、ICLR、NeurIPS、ICRA、RSS、CoRL 等多个学术会议上,并在多个学术会议及 workshop 上进行受邀演讲。

Chelsea Finn 个人主页:https://people.eecs.berkeley.edu/~cbfinn/

2018 ACM 最佳博士论文荣誉提名奖

2018 ACM 最佳博士论文荣誉提名奖颁给了 Ryan Beckett 和马腾宇,他们都博士毕业于普林斯顿大学计算机科学系。

Ryan Beckett 在博士论文《Network Control Plane Synthesis and Verification》中提出了一种创建、验证网络控制平面配置的通用、高效算法。计算机网络连接着这个世界重要基础设施的关键组件。一旦网络配置出错,人类高度依赖的系统就会崩溃,出现飞机坠毁、银行崩溃等情况。Beckett 的博士论文介绍了一种全新的原则、算法与工具,能够大幅改善当前网络的可靠性。

论文链接:http://www.rbeckett.org/files/thesis.pdf

目前,Beckett 是微软研究院移动与网络组(the mobility and networking group)的研究员。他在普林斯顿大学取得计算机科学硕士和博士学位,在美国弗吉尼亚大学取得计算机科学和数学两个学士学位。

马腾宇在博士论文「Non-convex Optimization for Machine Learning: Design, Analysis, and Understanding」中,提出了一种支持机器学习新趋势的全新理论。他提出的理论推进了对机器学习凸优化算法收敛性的证明,概述了使用这种方法训练的机器学习模型的特性。

论文链接:https://dataspace.princeton.edu/jspui/bitstream/88435/dsp01th83m199d/1/Ma_princeton_0181D_12361.pdf

在论文的第一部分,马腾宇首先研究了矩阵补全、稀疏编码、神经网络简化、学习线性动态系统等一系列问题,还构建了帮助设计可证明的准确、高效优化算法的条件。在第二部分,马腾宇展示了如何理解、解释使用非凸优化学得的自然语言嵌入模型。

现在,马腾宇是斯坦福大学计算机科学与统计学系助理教授,他博士毕业于普林斯顿大学计算机科学系。

值得一提的是,马腾宇本科毕业于清华姚班,曾获得 2007 年国际中学生数学奥赛银牌,2010 年获得美国普特南大学生数学竞赛第 8 名,2014 年获得理论计算机研究生 Simon 奖。

这些都是只能「仰望」的天才吧!

参考链接:https://awards.acm.org/about/2018-doctoral-dissertation

理论ACMUC Berkeley微软清华大学
3
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~