Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布

刚刚,ICML 2021揭晓了本届杰出论文奖和杰出论文荣誉提名奖,来自多伦多大学、谷歌大脑的研究获得了杰出论文奖,包括田渊栋、陆昱成在内的多位学者获得了杰出论文荣誉提名奖。此外,高通副总裁Max Welling和Hinton学生郑宇怀合著的研究获得了本次大会的时间检验奖。

近日,机器学习国际顶级会议 ICML 2021 以线上方式举行,本次会议共收到 5513 篇论文投稿,其中 1184 篇被接收,接收率为 21.5%,与上一年持平。

ICML 2021 程序主席张潼(香港科技大学教授)和 Marina Meila(华盛顿大学教授)在线上直播中公布了本次大会提交和接收论文的一些详细数据。首先,下图为 2017 至 2021 年 ICML 会议的论文提交与接收变化曲线:

ICML 2021 提交论文所属领域主要包括算法、深度学习(DL)、理论、应用、强化学习(RL)、社会层面、优化和概率方法(按比例从高到低排列)。

ICML 2021 按论文所属领域的接收率分布如下,其中理论论文接收率最高,随后依次为强化学习(RL)、概率方法、社会层面、优化、算法、应用和深度学习

在 ICML 2021 的所有接收论文中,哪些关键词是高频出现的呢?如下图所示,RL 出现频率最高,随后依次是 noise、planning、Bandits、Monte Carlo、Redution、Flow、Private 和 Provable。

在会议上,ICML 2021 大会公布了杰出论文奖和杰出论文荣誉提名奖的获奖结果,同时也公布了此次大会时间检验奖的结果。

来自多伦多大学和谷歌大脑的论文《Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies》获得了此次会议的杰出论文奖,此外共四篇论文获得了杰出论文荣誉提名奖,其中包括康奈尔大学博士生陆昱成、Facebook 人工智能研究院研究员田渊栋等人参与的研究。

值得注意的是,ICML 2021 官网公布的奖项和直播时程序主席公布的奖项出现不一致的情况,机器之心以直播中程序主席公布的奖项信息为准。

官网公布的杰出论文。

杰出论文奖

获得本次 ICML 杰出论文奖的研究者来自多伦多大学和谷歌大脑,他们提出了一种在展开计算图中高效学习和优化参数的无偏梯度方法,并在实验中展现出了相较于其他方法的优势。

  • 论文地址:http://proceedings.mlr.press/v139/vicol21a/vicol21a.pdf

  • 论文作者:Paul Vicol、Luke Metz、Jascha Sohl-Dickstein

  • 机构:多伦多大学、谷歌大脑

目前,展开(unrolled)计算图应用在很多场景中,包括训练 RNN、通过展开优化微调超参数和训练可学习优化器等。但是,在这类计算图中优化参数的方法存在着高方差梯度、偏差、更新缓慢以及大量内存使用等诸多问题。

在本文中,研究者提出了一种名为 Persistent Evolution Strategies (PES)的方法,它可以将计算图分成一系列截断的展开,并在每次展开后执行基于进化策略的更新步骤。PES 通过在整个展开序列上累积校正项来消除这些截断的偏差。PES 可以实现快速参数更新,具有低内存使用、无偏差以及合理的方差特征。实验表明,PES 在合成任务上展现出了与其他梯度估计方法的优势,并在训练可学习优化器和微调超参数方面具有适用性。

下图右为一个展开计算图,展示了如何使用图左的公式 1 和公式 2 来描述 RNN 和展开优化。

下表为 PES 方法与其他在展开计算图中学习参数的方法的比较:

杰出论文荣誉提名奖

本次有四篇论文获得 ICML 2021 杰出论文荣誉提名奖,分别由来自康奈尔大学、多伦多大学、谷歌大脑、FAIR、斯坦福大学、德国柏林自由大学、德国波茨坦大学等机构的研究者获得。值得一提的是,来自 Facebook 的科学家田渊栋担任一作的论文也收获此奖。

论文 1:Optimal Complexity in Decentralized Training

  • 论文地址:http://proceedings.mlr.press/v139/lu21a/lu21a.pdf

  • 论文作者:Yucheng Lu(陆昱成)、Christopher De Sa

  • 机构:康奈尔大学

去中心化是扩展并行机器学习系统的一种有效方法。本文给出了在随机非凸设置下进行复杂迭代的下界,该下界揭示了现有分散训练算法(例如 D-PSGD)在已知收敛速度方面存在理论差距。该研究通过构造来证明这个下界是严格的,并且可实现。基于这一发现,该研究进一步提出了 DeTAG,一个实用的 gossip 风格去中心化算法,仅以对数间隔(logarithm gap)就能实现下界。该研究将 DeTAG 算法与其他去中心化算法在图像分类任务上进行了比较,结果表明 DeTAG 算法与基线算法相比具有更快的收敛速度,特别是在未经打乱的数据和稀疏网络中。

该论文一作陆昱成本科就读于上海交通大学,现为康奈尔大学计算机科学系博士生。陆昱成的主要研究领域包括分布式优化和机器学习系统。

论文 2:Oops I Took A Gradient: Scalable Sampling for Discrete Distributions

  • 论文地址:https://arxiv.org/pdf/2102.04509.pdf

  • 论文作者:Will Grathwohl、Kevin Swersky、Milad Hashemi、David Duvenaud、Chris Maddison

  • 机构:多伦多大学、谷歌大脑

研究者为带有离散变量的概率模型提供了一种通用且可扩展的近似采样策略,该策略使用似然函数相对于其自身离散输入的梯度以在 Metropolis–Hastings 采样器中进行更新。实验表明,该方法在很多困难的设置下均优于通用采样器,包括 Ising 模型、Potts 模型以及受限玻尔兹曼机和因子隐马尔可夫模型。此外,研究者还展示了改进后的采样器可以在高维离散图像数据上训练基于能量的深度模型。这种方法优于变分自编码器和现有的基于能量的模型。最后,研究者给出了 bounds,表明他们的方法在提出局部更新的采样器中接近最优。

论文 3:Understanding self-supervised learning dynamics without contrastive pair

  • 论文地址:https://arxiv.org/pdf/2102.06810.pdf

  • 论文作者:Yuandong Tian(田渊栋)、Xinlei Chen、Surya Ganguli

  • 机构:FAIR、斯坦福大学

对比自监督学习(SSL)的比较方法通过最小化同一数据点(正样本对)的两个增强视图之间的距离和最大化来自不同数据点的视图(负样本对)来学习表征,然而,最近的非对比 SSL(如 BYOL 、SimSiam)在没有负样本对的情况下表现出了卓越的性能,使用额外的可学习预测器和停止梯度操作(stop-gradient operation),模型性能会更佳。这样会出现一个基本的问题:为什么这些方法不能分解成简单的表征?

该研究通过一个简单的理论研究来回答这个问题,并提出一个新的方法 DirectPred,该方法直接根据输入的统计数据设置线性预测器,而不需要梯度训练。研究者在 ImageNet 上进行了比较,结果显示其结果与使用 BatchNorm 更复杂的两层非线性预测器性能相当,并且在 300-epoch 的训练中比线性预测器高出 2.5%(在 60 个 epoch 中高出 5%)。DirectPred 研究是受到对简单线性网络中非对比 SSL 的非线性学习动力学理论研究的启发。该研究从概念上深入了解了非对比 SSL 方法是如何学习以及如何避免表征崩溃,此外还包括多重因素,例如预测网络、停止梯度、指数移动平均数、权重衰减等因素如何发挥作用。

最后,该研究还简单概括了所提方法在 STL-10 和 ImageNet 消融研究的结果。

论文 4:Solving high-dimensional parabolic PDEs using the tensor train format

  • 论文地址:https://arxiv.org/pdf/2102.11830.pdf

  • 论文作者:Lorenz Richter、Leon Sallandt、Nikolas Nüsken

  • 机构:德国柏林自由大学、德国波茨坦大学等

高维偏微分方程(PDE)在经济学、科学和工程中无处不在。然而,对 PDE 数值的处理还存在巨大的挑战,因为传统的基于网格(gridbased)的方法往往会受到维数诅咒的阻碍。在本文中,研究者认为张量训练为抛物偏微分方程提供了一个合理的近似框架:将倒向随机微分方程和张量格式的回归型方法相结合,有望利用潜在的低秩结构,实现压缩和高效计算。

依照此范式,研究者开发了新的迭代方案,包括显式、快速的或者隐式、准确的更新。与 SOTA 性能的神经网络相比所提方法在准确率和计算效率之间取得了很好的权衡。

时间检验奖

获得本次大会时间检验奖的是一篇 ICML 2011 的论文,主题是「基于随机梯度 Langevin 动力学的贝叶斯学习」。

  • 论文地址:https://www.cse.iitk.ac.in/users/piyush/courses/tpmi_winter21/readings/sgld.pdf

  • 论文作者:Max Welling、Yee Whye Teh

Max Welling 是阿姆斯特丹大学机器学习研究负责人、高通公司技术副总裁,同时也是加拿大高级研究院(CIFAR)的高级研究员。1998 年,Max Welling 在诺贝尔经济学奖获得者 Gerard't Hooft 的指导下获得博士学位。Max Welling 在加州理工学院(98-00)、伦敦大学学院(00-01)和多伦多大学(01-03)均有过博士后工作经历,目前拥有超过 250 篇机器学习计算机视觉、统计学和物理学方面的科学出版物,h-index 指数为 62。

Yee Whye Teh(郑宇怀)是牛津大学统计学系教授、DeepMind 研究科学家,马来西亚华人。郑宇怀在多伦多大学获得博士学位,师从 Geroffery Hinton,并在加州大学伯克利分校和新加坡国立大学从事博士后工作。他的研究兴趣包括机器学习、计算统计学和人工智能,特别是概率模型、非参数贝叶斯、大规模学习和深度学习。他是深度信念网络和层次狄利克雷过程的最初提出者之一。

在这篇论文中,研究者提出了一种基于 small mini-batches 迭代学习的大规模数据集学习框架。通过在标准的随机梯度优化算法中加入适量噪声,研究者证明了 stepsize 退火时迭代会收敛到真实后验概率的样本。这种优化和贝叶斯后验采样之间的无缝衔接提供了一个防止过拟合的内置保护。此外,论文提出了一种蒙特卡罗后验统计量估计的实用方法,该方法可监测「采样阈值」,并在超过采样阈值后收集样本。研究者将这种方法应用于高斯、逻辑回归、ICA 三种模型的混合,并使用自然梯度。

同样地,为了帮助研究者快速了解本次会议入选的工作,这一次 Paper Digest Team 整理了所有被接收的论文,并给每篇论文提炼了一个金句(通常是主题),帮助读者快速了解每篇论文的主要思想。

网站地址:https://www.paperdigest.org/2021/07/icml-2021-highlights/

参考链接:https://watch.videodelivery.net/b504b00c401ac24e41ab297a9f3781b9
理论郑宇怀陆昱成Max Welling田渊栋多伦多大学杰出论文奖ICML 2021
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

后验概率技术

在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

隐马尔可夫模型技术

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

似然函数技术

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“ 似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。

受限玻尔兹曼机技术

受限玻尔兹曼机(英语:restricted Boltzmann machine, RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络。RBM最初由发明者保罗·斯模棱斯基于1986年命名为簧风琴(Harmonium),但直到杰弗里·辛顿及其合作者在2000年代中叶发明快速学习算法后,受限玻兹曼机才变得知名。受限玻兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同,受限玻兹曼机可以使用监督学习或无监督学习的方法进行训练。受限玻兹曼机也可被用于深度学习网络。具体地,深度信念网络可使用多个RBM堆叠而成,并可使用梯度下降法和反向传播算法进行调优。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

贝叶斯学习技术

基于贝叶斯概率定理的学习方法

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

进化策略技术

进化策略(Evolutionary Strategies,ES)是由德国的I. Rechenberg和HP. Schwefel于1963年提出的。ES作为一种求解参数优化问题的方法,模仿生物进化原理,假设不论基因发生何种变化,产生的结果(性状)总遵循零均值、某一方差的高斯分布。

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

田渊栋人物

田渊栋,Facebook人工智能研究院智能围棋、星际争霸项目负责人。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

暂无评论
暂无评论~