泽南、小舟编辑

刚刚,ICLR 2021正式放榜:接收率上升,860篇论文创新高

又到了激动人心的揭榜时刻。

几个小时前,人工智能顶会 ICLR 2021 放出了今年的论文接收结果。

和其他著名人工智能会议一样,今年的 ICLR 论文投稿数量继续增长:共获得 2997 篇有效投稿,860 篇论文最终被接收(2020 年为 687 篇),其中 53 篇将进行口头讲述报告(Oral),114 篇 Spotlight,其余为 Poster 论文。

今年大会论文 29% 的接收率相比去年的 26.5% 也有提升,与其他一些顶会大幅降低接收率相比,ICLR 似乎更加友好。但在社交网络上,我们仍然看到了「评分 6、8、6、8,但仍被程序主席毙掉」的惨剧。在此之前,所有论文的初审结果已于去年 11 月 11 日公布。值得注意的是,此次会议收到的论文中有 856 篇是 NeurIPS 2020 Rejection 之后再提交的。

论文结果放出以后,人们也整理了本次大会的论文评分和链接列表:

https://docs.google.com/spreadsheets/d/1n58O0lgGI5kI0QQY9f4BDDpNB4oFjb5D51yMr9fHAK4/edit#gid=1546418007

其中可见,不同于去年超过 30 篇满分论文,今年只有 15 篇论文获得了平均 8 分及以上的分数,也没出现「满分论文」。其中排名最高的是来自麻省理工学院(MIT)Keyulu Xu、马里兰大学 Mozhi Zhang、Jingling Li 等人的论文《How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks 获得了 9、8、9、9 四个评分。



论文链接:https://openreview.net/forum?id=UH-cmocLJC

该研究的主题是通过梯度下降训练的神经网络如何外推(extrapolate),即在训练分布的支持以外还能学到什么。之前的研究表明用神经网络外推时的混合实验结果如下:虽然多层感知机(MLP)在一些简单任务中无法很好地外推,但是图神经网络(GNN,一种具有 MLP 模块的结构化网络)在一些较为复杂的任务中已经显示出一定的成功。通过理论解释,研究者确定了 MLP 和 GNN 良好推断的条件。

首先,该研究对 ReLU MLP 从原点沿任何方向快速收敛到线性函数的观察结果进行量化。这意味着 ReLU MLP 不会外推大多数非线性函数。但是,当训练分布足够多样化时,ReLU MLP 被证明可以用于学习线性目标函数。其次,结合分析 GNN 的成功和局限性,这些结果提出了一种假设:GNN 在将算法任务外推到新数据(例如较大的图或边权重)方面的成功取决于架构或特征中的特定于编码任务的非线性性。该研究为这种假设理论和实验依据。该研究的理论分析建立在超参数网络与神经正切核的连接上。实验表明,该研究的理论适用于不同的训练设置。


图 1:ReLU MLP 如何外推。研究者训练 MLP 以学习非线性函数(灰色),并从内部(蓝色)和外部(黑色)两方面绘制其预测结果。MLP 从原点沿多个方向迅速收敛至训练数据范围以外的线性函数。因此,MLP 在大多数非线性任务中无法很好地外推,但 MLP 能够很好地全局外推线性目标函数


图 2:GNN 如何外推。由于 MLP 在学习线性函数时可以很好地进行外推,因此研究者作出如下假设:如果在架构(左)和输入表征(右,借助域知识或表征学习)中编码适当的非线性,GNN 就会在动态规划(DP)中很好地进行外推。编码的非线性可能对于插值(interpolation)是非必需的,因为它们可能是通过 MLP 模块近似化的,但是它们有助于外推。

ICLR 全称为 International Conference on Learning Representations(国际学习表征会议)。自 2013 年开始每年举办一次,2021 年将举办第九届会议。该会议与 CVPR、ACL、NeurIPS 等学术会议一样被认为是国际人工智能顶会,同时也是 CCF 评选的一类会议。

ICLR 的创始人包括深度学习三巨头之二的 Yoshua Bengio 和 Yann LeCun。数据的应用表征对机器学习的性能有着重要的影响,表征学习对于计算机视觉语音处理自然语言处理等多个领域都起着至关重要的作用,ICLR 旨在打造这一领域交流研究的平台。

今年的 ICLR 大会原定于奥地利首都维也纳举行,但由于新冠疫情的原因已连续第二届改为线上形式,正式的活动将在 5 月 4-8 日进行。

虽然参会的人数还不是最多,但 ICLR 的影响力已不容小觑。在今年的论文结果放出之后,Yann LeCun 在推特上给出了一些 ICLR 大会的数据:

ICLR 的谷歌学术 h5 指数已经排到了全榜第 17 名,超过了 NeurIPS、ICCV、ICML,落后于 CVPR(该榜单的前三名是 Nature、新英格兰医学杂志和 Science)。

对于一个 2013 年刚起步的学术会议来说,这是相当值得称赞的成绩。LeCun 表示,开放的审稿形式,以及深度学习领域近年来的良好发展趋势是 ICLR 大会成功的原因。


参考内容:

https://iclr.cc/Conferences/2021/Dates

https://scholar.google.com/citations?view_op=top_venues&hl=en


理论ICLR 2021
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语音处理技术

语音处理(Speech processing),又称语音信号处理、人声处理,其目的是希望做出想要的信号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~