学术菠菜排版忆书、青青子衿 校对赵璇译者学术青、优学术责编

NeurIPS100 | 谷歌、Facebook、斯坦福等十篇机器学习最新论文解读

NeurIPS 2019虽然刚刚落幕,但是学习的任务还远未结束。

今天我们整理了NeurIPS 2019上十篇机器学习领域的论文,这些论文来自谷歌、Facebook、普林斯顿大学、斯坦福大学等团队的最新研究成果,供大家参考学习。

1

Differentiable Ranks and Sorting using Optimal Transport

基于优化运输的可微排序

论文作者

Marco Cuturi, Olivier Teboul, Jean-Philippe Vert(谷歌)

论文地址:

https://www.aminer.cn/pub/5de799899e795e7758069304/

技术领域:

机器学习理论

摘要

排序广泛用于机器学习中,以定义基本算法(例如k最近邻居(k-NN)规则),或定义测试时间指标(例如top-k分类准确性或排名损失)。但是,排序对于深度学习的端到端,可自动区分的管道来说是一种不太好的匹配。排序过程输出两个向量,这两个向量都不是可微的:排序值的向量是分段线性的,而排序置换本身(或它的倒数,即秩的向量)没有可微的性质,因为它是整数值。在本文中,我们提出使用可微分的代理替换常规的排序过程。我们的代理基于这样一个事实,即排序可以看作是一种最佳分配问题,其中要排序的n个值与任何增加的n个目标值族支持的辅助概率测度相匹配。根据此观察,我们通过考虑最佳运输(OT)问题(分配的自然松弛)提出扩展的排序和排序算子,其中辅助度量可以是m个增加值(其中m ≠ n)上支持的任何加权度量。我们通过用熵惩罚对这些OT问题进行正则化来恢复微分算子,并通过应用Sinkhorn迭代来解决它们。使用这些平滑的等级和排序运算符,我们为分类0/1损失以及分位数回归损失提出了可区分的代理。

2

A Simple Baseline for Bayesian Uncertainty in Deep Learning

深度学习中贝叶斯不确定性的简单基准

论文作者:

Wesley Maddox, Timur Garipov, Pavel Izmailov, Dmitry Vetrov, Andrew Gordon Wilson(纽约大学,莫斯科三星人工智能中心,俄罗斯高等经济研究大学)

论文地址:

https://www.aminer.cn/pub/5db92a0a47c8f766461feab6/

技术领域:

机器学习,计算机视觉,模式识别

摘要

本文提出了SWA-Gaussian(SWAG),一种可用于深度学习中不确定性表示和校准的简单、可扩展的通用方法。随机权重平均(SWA)可通过修改后的学习率计划来计算随机梯度下降(SGD)迭代的一阶矩,该方法可改善深度学习的通用性。我们使用SWA解作为一阶矩拟合高斯函数,并且从SGD迭代获得低秩加对角协方差,从而在神经网络权重上形成近似后验分布;然后,再从该高斯分布中采样以执行贝叶斯模型平均。实验结果表明,SWAG近似于真实后验的形状,与SGD迭代的平稳分布的结果一致。此外,与许多流行的替代方案(包括MC-dropout、KFAC Laplace和温度缩放)相比,SWAG在多种计算机视觉任务(包括异常点检测、校准和转移学习)中的性能都很好。

3

AGEM: Solving Linear Inverse Problems via Deep Priors and Sampling

AGEM:通过深度先验和采样解决线性逆问题

论文作者:

Bichuan Guo, Yuxing Han, Jiangtao Wen(清华大学,华南农业大学)

论文地址:

https://www.aminer.cn/pub/5db92a2547c8f766462013e5/

技术领域:

机器学习

摘要

在本文中,我们提出在解决线性逆问题并估计其噪声参数之前,先使用降噪自动编码器(DAE)。现有的基于DAE的方法根据经验估算噪声参数,或将其视为可调超参数。相反,我们建议使用自动编码器指导的EM,这是一种概率性的框架,可以执行具有难解的深层先验的贝叶斯推理。实验证明,可以通过Metropolis-Hastings从DAE获得高效的后验采样,从而可以使用Monte Carlo EM算法。实验结果展示了该方法在信号降噪、图像去模糊和图像去暗角方面的竞争结果。本文的方法是将深度学习的表示能力与贝叶斯统计数据的不确定性量化相结合的示例。

4

Can you trust your model‘s uncertainty?Evaluating predictive uncertainty under dataset shift

可以相信模型的不确定性吗?在数据集偏移下评估预测不确定性

论文作者

Jasper Snoek, Yaniv Ovadia, Emily Fertig, Balaji Lakshminarayanan, Sebastian Nowozin, D. Sculley, Joshua Dillon, Jie Ren, Zachary Nado(谷歌)

论文地址:

https://www.aminer.cn/pub/5db929c047c8f766461fad18/

技术领域:

机器学习

摘要

深度学习等现代机器学习方法已在监督学习任务的预测准确性上取得了巨大成功,但仍无法对它们的预测不确定性给出有用的估计。量化不确定性在现实环境中尤为关键,由于各种因素(包括样本偏差和不平稳性),不确定性在实际环境中通常涉及输入分布,这些分布由训练分布转换而来。在这种情况下,经过良好校准的不确定性估计可以传达有关何时应该(或不应该)信任模型输出的信息。各种文献中已经提出了许多概率深度学习方法,包括贝叶斯方法和非贝叶斯方法,用于量化预测不确定性。但是据我们所知,过去在数据集转换下没有对这些方法进行严格地大规模实证比较。我们提供了有关分类问题现有的最先进方法的大规模基准,并研究了数据集转化对准确性和校准的影响。我们发现,传统的事后校准以及其他几种方法,效果确实不如新方法效果好。但是,综合多模型的方法在广泛的任务中给出了令人惊讶的强大结果。

5

Implicit Regularization in Deep Matrix Factorization

深度矩阵分解中的隐式正则化

论文作者

Sanjeev Arora, Nadav Cohen, Wei Hu, Yuping Luo(普林斯顿大学)

论文地址:

https://www.aminer.cn/pub/5d04e910da56295d08de0f0c/

技术领域:

机器学习,神经与演化计算

摘要

努力理解深度学习中的泛化奥秘,导致人们相信基于梯度的优化会带来某种形式的隐式正则化,即对低“复杂度”模型的偏差。我们研究了用于矩阵完成和感知的深度线性神经网络上梯度下降的隐式正则化,该模型称为深度矩阵分解。

在理论和实验的支持下,我们的首个发现是,增加矩阵分解的深度会增强向低秩求解的隐式趋势,通常会导致更准确的恢复。其次,我们提出理论和经验论据,质疑一个新的观点,即可以使用简单的数学范式捕获矩阵分解中的隐式正则化。结果表明,标准正则化的语言可能不够丰富,无法完全包含基于梯度的优化所带来的隐式正则化。

6

From deep learning to mechanistic understanding in neuroscience: the structure of retinal prediction

从深度学习到神经科学中的机械理解:视网膜预测的结构

论文作者

Hidenori Tanaka, Aran Nayebi, Niru Maheswaranathan, Lane McIntosh, Stephen Baccus, Surya Ganguli(斯坦福大学)

论文地址:

https://www.aminer.cn/pub/5db92a0447c8f766461fe0dc/

技术领域:

机器学习

摘要

最近,就再现感觉神经元的输入-输出图而言,深度前馈神经网络在对生物感觉过程进行建模方面已经取得了相当大的成功。但是,这种模型对神经科学解释的本质提出了深刻的问题。我们是否只是在不理解的情况下简单地把一个复杂的系统(一个生物回路)替换成另一个系统(一个深层网络)?此外,除了神经表示之外,用于产生神经反应的深度网络的计算机制是否与大脑相同?如果没有一种系统的方法从深度神经网络模型中提取和理解计算机制,那么既难以评估深度学习方法在神经科学中的实用程度,又难以从深度网络中提取出实验可检验的假设。

我们通过将降维与现代归因相结合来开发这种系统的方法,以确定中间神经元对于特定视觉计算的相对重要性。我们将这种方法应用于视网膜的深层网络模型,揭示了对视网膜如何充当预测特征提取器(从不同时空刺激中发出偏离期望值)的概念性理解。对于每种刺激,我们提取的计算机制与先前的科学文献一致,并且在一种情况下产生了新的机制假设。因此,总体而言,这项工作不仅提供了对视网膜惊人预测能力的计算机制的深刻见解,而且还提供了一条新的路线图,超越了比较神经表示的范围,通过提取和理解计算机制,从而将深层网络的框架作为神经科学模型置于更牢固的理论基础上。

7

Practical Deep Learning with Bayesian Principles

贝叶斯原理的深度学习实践

论文作者

Kazuki Osawa, Siddharth Swaroop, Anirudh Jain, Runa Eschenhagen, Richard E. Turner, Rio Yokota, Mohammad Emtiyaz Khan(东京工业大学,剑桥大学,印度理工学院,卡尔加里大学,瑞肯人工智能项目中心)

论文地址:

https://www.aminer.cn/pub/5db929c047c8f766461fad84/

技术领域:

机器学习

摘要

贝叶斯方法有望解决深度学习的许多缺点,但它们很少与标准方法的性能相匹配,更不用说对其进行改进了。在本文中,我们通过自然梯度变分推断演示了深度网络的实践训练。通过应用批处理归一化、数据增强和分布式训练等技术,即使在大型数据集(例如ImageNet)上,我们也可以在与Adam优化器大致相同的训练周期内获得类似的性能。

重要的是,这种方法保留了贝叶斯原理的优势:很好地校准了预测概率,改善了分布外数据的不确定性,并提高了持续学习的能力。这项工作可以实现实用的深度学习,同时保留贝叶斯原理的优点。其PyTorch实现可作为即插即用优化器使用。

8

Single-Model Uncertainties for Deep Learning

深度学习的单一模型不确定性

论文作者

Natasa Tagasovska, David Lopez-Paz(洛桑信息系统部,Facebook)

论文地址:

https://www.aminer.cn/pub/5db92a1247c8f766461ff9b9/

技术领域:

机器学习

摘要

本文为深度神经网络提供了随机不确定性和认知不确定性的单模型评估。为了评估随机性,我们提出了同步分位数回归(SQR),这是一种损失函数,用于学习给定目标变量的所有条件分位数。这些分位数可用于计算校准良好的预测区间。为了评估认知不确定性,我们提出了正交认证(OCs),这是各种非恒定函数的集合,这些函数将所有训练样本映射为零。这些认证将分布范围外的示例映射到非零值,表示认知上的不确定性。我们的不确定性评估器在计算上具有吸引力,因为它们不需被集合或重新训练深层模型即可实现竞争优势。

9

On Exact Computation with an Infinitely Wide Neural Net

关于无限宽神经网络的精确计算

论文作者

Sanjeev Arora, Simon S. Du, Wei Hu, Zhiyuan Li, Ruslan Salakhutdinov, Ruosong Wang(普林斯顿大学,卡内基梅隆大学)

论文地址:

https://www.aminer.cn/pub/5ce3adb8ced107d4c65bf22a/

技术领域:

机器学习,计算机视觉及模式识别,神经及演化计算

摘要

当经典的深度网络结构(比如AlexNet或者VGG19)的宽度(即卷积层中的通道数和完全连接的内部层中的节点数)允许增无穷大时,它们在标准数据集(如CIFAR-10)上的分类效果如何?在理论上理解深度学习及其关于优化和泛化的奥秘方面,这些问题已成为最重要的问题。它们还将深度学习与高斯过程和核等概念联系起来。最近的一篇论文[Jacot 等,2018]引入了神经正切核(NTK),它捕获了由梯度下降训练的无限宽度中的全连接深度网络的行为;该对象在其他一些最近的论文中也有暗示。这些想法的吸引力在于,使用纯粹基于内核的方法来捕获经过充分训练的无限宽度的深度网络的功能。

本文提供了第一个高效的精确算法,用于计算NTK到卷积神经网络的扩展,我们称之为卷积NTK(CNTK),以及该算法的高效GPU实现。这为在CIFAR-10上纯粹基于内核方法的性能提供了重要的新基准,比[Novak等人2019]中报道的方法高出10%,仅比对应的有限深度网络结构(不用批归一化等)的性能低6%。从理论上讲,我们还给出了第一个非渐近证明,表明经过充分训练的足够宽的网络确实等同于使用NTK的核回归预测器。

参考文献:

Arthur Jacot, Franck Gabriel, and Clément Hongler. Neural tangent kernel: Convergence and generalization in neural networks. arXiv preprint arXiv:1806.07572, 2018.

10

Towards Understanding the Importance of Shortcut Connections in Residual Networks

理解残差网络中快捷连接的重要性

论文作者

Tianyi Liu, Minshuo Chen, Mo Zhou, Simon S. Du, Enlu Zhou, Tuo Zhao(佐治亚理工学院,杜克大学,北京大学,卡内基梅隆大学)

论文地址:

https://www.aminer.cn/pub/5db9298447c8f766461f893a/

技术领域:

机器学习,优化及控制

摘要

残差网络(ResNet)无疑是深度学习的一个里程碑。ResNet在层之间配备了快捷连接,并使用简单的一阶算法展示了高效的训练。尽管它取得了巨大的成功,但背后的原因远未得到很好的理解。在本文中,我们研究了两层不重叠的卷积ResNet。训练这样的网络需要解决带有虚假的局部最优的非凸优化问题。然而,我们表明,当第一层的权重初始化为0时,并且第二层的权重在一个球面上任意初始化时,梯度下降与适当的归一化相结合,可以避免被虚假局部最优所困,并在多项式时间内收敛到全局最优。数值实验为我们的理论提供了支持。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论论文机器学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

变分推断技术

see Variational Bayesian methods (approximation)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

贝叶斯模型技术

贝叶斯模型基于贝叶斯定理,即:P(A|B)=P(B|A)*P(A)/P(B)。经典的贝叶斯模型包括朴素贝叶斯、贝叶斯网络和动态贝叶斯网络(DBN);它们主要用于基于给定条件查找事件的概率。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

高斯过程技术

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

异常点检测技术

异常点检测(又称为离群点检测)是找出其行为很不同于预期对象的一个检测过程。这些对象被称为异常点或者离群点。异常点检测在很多实际的生产生活中都有着具体的应用,比如信用卡欺诈,工业损毁检测,图像检测等。异常点(outlier)是一个数据对象,它明显不同于其他的数据对象,就好像它是被不同的机制产生的一样。一般来说,进行异常点检测的方法有很多,最常见的就是基于统计学的方法。

批归一化技术

批归一化(Batch Normalization,BN)由谷歌于2015年提出,是一个深度神经网络训练的技巧,它不仅可以加快模型的收敛速度,还能在一定程度上缓解深层网络中的“梯度弥散”问题,从而使得训练深层网络模型更加容易和稳定。目前BN已经成为几乎所有卷积神经网络的标配技巧了。从字面意思看来Batch Normalization(简称BN)就是对每一批数据进行归一化。

Adam优化器技术

自适应矩估计(Adam)优化器是计算每个参数的自适应学习率的另一种方法。 除了存储像Adadelta和RMSprop之类的过去平方梯度vtvt的指数衰减平均数之外,Adam也保持了过去梯度mtmt的指数衰减平均值,类似于动量:

预测区间技术

预测区间即预先推测或测定任何的连续块,除了点预测外还有另外一类预测问题,即区间预测。预测区间则是通过预测方法得到的目标的取值区间。预测是指在掌握现有信息的基础上,依照一定的方法与规律对未来的事情进行测算,以预先了解事情发展的结果。分配给对象(如表)的任何连续块叫区间。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

Samsung Group机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

暂无评论
暂无评论~