AI顶会ICLR 2020“云”举行,优必选科技2篇论文入选

受全球范围疫情爆发的影响,原定于4月25日在埃塞俄比亚首都亚的斯亚贝巴举行的人工智能顶会 ICLR 2020,宣布取消线下会议,完全改为线上。此前,2月7日在美国纽约举办的人工智能顶级会议AAAI 2020,也采取了部分线上模式,让不能到场的学者远程参会。

虽然疫情让这些人工智能顶会充满变数,但丝毫不影响全球人工智能学者和研究人员的热情,他们提交了大量重要研究成果的论文。优必选悉尼大学人工智能研究中心今年也有数篇论文被人工智能顶会接收,其中,ICLR 2020有2篇,AAAI 2020有4篇,CVPR 2020有12篇。

 ICLR(国际学习表征会议)于2013年成立,由Lecun,Hinton和Bengio三位神经网络的元老联手发起。近年来随着深度学习在工程实践中的成功,ICLR也在短短的几年中发展成为了神经网络的顶会。

今年,ICLR共收到了2594篇论文投稿,相比去年的1591篇论文投稿,增加了38.7%,其中687篇论文被接收,优必选悉尼大学人工智能中心有2篇论文被接收。

论文一:分段线性激活实质上塑造了神经网络的损失平面

论文地址:https://openreview.net/forum?id=B1x6BTEKwr

摘要:理解神经网络的损失平面对于理解深度学习至关重要。本文介绍了分段线性激活函数是如何从根本上塑造神经网络损失平面的。我们首先证明了许多神经网络的损失平面具有无限的伪局部极小值,这些伪局部极小值被定义为经验风险比全局极小值更高的局部极小值。我们的结果表明,分段线性激活网络与已被人们充分研究的线性神经网络有着本质区别。实践中,这一结果适用于大多数损失函数中任何具有任意深度和任意分段线性激活函数(不包括线性函数)的神经网络。本质上,基本假设与大多数实际情况是一致的,即输出层比任何隐藏层都窄。此外,利用不可微分的边界将具有分段线性激活的神经网络的损失平面分割成多个光滑的多线性单元。所构造的伪局部极小值以底谷的形式集中在一个单元中:它们通过一条经验风险不变的连续路径相互连接。对于单隐层网络,我们进一步证明了一个单元中的所有局部最小值均构成一个等价类别;它们集中在一个底谷里;它们都是单元中的全局极小值。

论文二:理解递归神经网络中的泛化

论文地址:https://openreview.net/forum?id=rkgg6xBYDH

摘要:在本文中,我们阐述了分析递归神经网络泛化性能的理论。我们首先基于矩阵1-范数和 Fisher-Rao 范数提出了一种新的递归神经网络的泛化边界。Fisher-Rao 范数的定义依赖于有关 RNN 梯度的结构引理。这种新的泛化边界假设输入数据的协方差矩阵是正定的,这可能限制了它在实际中的应用。为了解决这一问题,我们提出在输入数据中加入随机噪声,并证明了经随机噪声(随机噪声是输入数据的扩展)训练的一个泛化边界。与现有结果相比,我们的泛化边界对网络的规模没有明显的依赖关系。我们还发现,递归神经网络(RNN)的 Fisher-Rao 范数可以解释为梯度的度量,纳入这种梯度度量不仅可以收紧边界,而且可以在泛化和可训练性之间建立关系。在此基础上,我们从理论上分析了特征协方差对神经网络泛化的影响,并讨论了训练中的权值衰减和梯度裁剪可以如何改善神经网络泛化。

产业AI优必选优必选科技ICLR 2020
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

协方差矩阵技术

在统计学与概率论中,协方差矩阵(也称离差矩阵、方差-协方差矩阵)是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

推荐文章
暂无评论
暂无评论~