Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Yoshua Bengio, Yann Lecun, Geoffrey Hinton作者LZM译者

Hinton、Bengio、LeCun三巨头联手长文:深度学习从兴起到未来

最近,深度学习三巨头联名发表了一篇文章。在文章中,他们回顾了近年来深度学习的基本概念和一些突破性成就,描述了深度学习的起源,还讨论了一些未来的挑战。

人工神经网络的研究源于以下观察:人类智能来自于高度并行的、相对简单的非线性神经元网络,这些神经元通过调整其连接的强度来学习知识。

这一观察引发出一个核心计算问题:这种一般类型的网络如何学习识别物体或理解语言等困难任务所需的复杂内部表示呢?深度学习试图通过深度表征向量和最优化损失函数得到的权重链接来回答这个问题。

非常令人惊讶的是,这种概念上简单的方法在使用大量计算资源和大型训练集时被实验证明是如此有效,而且似乎一个关键因素是深度,即浅层网络无法正常工作。

本文,我们将回顾近年来深度学习的基本概念和一些突破性成就,描述深度学习的起源,以及讨论一些未来的挑战。

这些挑战包括在很少或没有外部监督的情况下进行学习,处理来自与训练样本不同分布的测试样本,以及使用深度学习方法,用于那些人类通过一系列步骤有意识地解决的任务 —— 即 Kahneman 称之为 system 2 而非 system 1 的任务,例如对象识别或即时自然语言理解。system 1 的任务往往更轻松。

从手工设计的编码到分布式向量表示

人工智能有两种截然不同的范式。简而言之,逻辑启发范式将顺序推理视为智能的本质,旨在使用手工设计的推理规则在计算机中实现推理,这些规则对手工设计的将知识形式化的符号表达式进行操作。

受大脑启发的范式将从数据中学习表征视为智能的本质,旨在通过手动设计或演化规则来实现学习,以修改人工神经网络中的连接强度。

逻辑启发范式中,符号没有有意义的内部结构:它的意义在于它与其他符号的关系,这些关系可以用一组符号表达式或关系图来表示。

相比之下,在类脑范式中,用于交流的外部符号被转换为神经活动的内部向量,这些向量具有丰富的相似结构。活动向量可用于通过为每个符号学习适当的活动向量并学习允许填充与符号串缺失元素对应的活动向量的非线性变换来对一组符号串中固有的结构进行建模。

Rumelhart 等人首先证明了这一点。最近一个非常令人印象深刻的系统是 BERT,它利用自注意力来动态连接单元组。

使用神经活动向量来表示概念和权重矩阵来捕捉概念之间的关系的主要优点是,这会产生自动的泛化能力。如果星期二和星期四由非常相似的向量表示,它们将对神经活动的其他向量产生非常相似的因果影响。

这有助于类比推理,并表明直接、直观的类比推理是我们的主要推理模式,而逻辑顺序推理 (logical sequential reasoning) 则是较晚的发展,我们将对此进行讨论。

深度学习的兴起

 2000 年代初期,深度学习领域通过引入一些新技术使训练更深的网络变得容易,从而重新激发了神经网络的研究。

GPU 和大型数据集是深度学习的关键推动因素,并且通过开发具有自动区分功能的开源、灵活的软件平台(例如 Theano、Torch、Caffe、TensorFlow、和 PyTorch)大大增强了深度学习的发展,这使得训练复杂的深度网络和重用最新模型及其构建块变得容易。而且,更多层的组合允许更复杂的非线性,并在感知任务中取得了令人惊讶的好结果。

1)为什么是深度?:尽管更深层次的神经网络可能是更强大的直觉早于现代深度学习技术,这是架构和训练程序方面的一系列进步,但是,为什么更深的网络可以更好地概括我们对建模感兴趣的输入输出关系类型?

重要的是,要认识到这不仅仅是具有更多参数的问题,因为深度网络通常比具有相同参数数量的浅层网络具有更好的泛化能力。

最流行的计算机视觉卷积网络架构是 ResNet 系列,其中最常见的代表 ResNet-50 有 50 层。本文未提及但结果证明非常有用的其他成分包括图像变形、dropout 和批量归一化。

我们相信深度网络之所以出色,是因为它们利用了一种特定形式的组合性,其中一层中的特征以多种不同的方式组合,以在下一层创建更多抽象特征。对于像感知这样的任务,这种组合性非常有效,并且有强有力的证据表明这种组合性质被生物感知系统所利用。

2)无监督预训练:当标记训练示例的数量与执行任务所需的神经网络的复杂性相比较小时,开始使用一些其他信息源来创建特征检测器层然后微调这些特征检测器是有意义的。在迁移学习中,信息来源是另一个具有大量标签的监督学习任务。但也可以通过堆叠自动编码器来创建多层特征检测器,而无需使用任何标签。

首先,我们学习了一层特征检测器,其输出激活向量允许重建输入。然后学习第二层特征检测器,其激活向量允许重建第一层特征检测器的激活。

在以这种方式学习了几个隐藏层之后,尝试从最后一个隐藏层中的活动预测标签,并通过所有层反向传播错误,以便微调最初建立的特征检测器,而不使用标签中的宝贵信息。预训练可以很好地提取与最终分类无关的各种结构,但是,在计算便宜且标记数据昂贵的情况下,只要预训练将输入转换为表示使分类更容易。

除了提高泛化能力之外,无监督预训练还以一种很容易通过反向传播微调深度神经网络的方式初始化权重

预训练对优化的影响在历史上对于克服深度网络难以训练的公认观点很重要,但现在人们使用修正线性单元(见下一节)和残差连接,它的相关性要小得多。然而, 预训练对泛化的影响已被证明是非常重要的。它可以通过利用大量未标记的数据来训练非常大的模型,例如在自然语言处理中,有大量的语料库可用。预训练和微调的一般原则已成为深度学习工具箱中的一个重要工具,例如,迁移学习元学习

3)ReLU 的成功之谜:深度网络的早期成功涉及使用 sigmoid 非线性函数或双曲正切激活函数对隐含层进行无监督预训练。

长期以来,神经科学线性 ReLU 函数是生物神经网络中的正确激活,并且 ReLU 已经在 RBM 的某些变体和卷积神经网络中使用,并取得了不错的效果。ReLU 使学习变得容易,这是一个出乎意料的惊喜,通过反向传播和随机梯度下降来训练深度网络,而无需逐层预训练。这是技术进步之一,使深度学习能够胜过先前的对象识别方法。

4)语音和物体识别方面的突破:声学模型将声波的表示转换为音素片段的概率分布

Robinson 使用晶片机和 Morgan 等人使用 DSP 芯片的尝试已经表明,如果有足够的处理能力,神经网络可以与最先进的声学建模技术相媲美。2009 年,两名使用 Nvidia GPU 的研究生表明,预训练的深度神经网络在 TIMIT 数据集上的表现略优于 SOTA。

这一结果重新点燃了神经网络中几个主要语音小组的兴趣。2010 年,基本上相同的深度网络被证明在不需要依赖说话者的训练的情况下在大词汇语音识别方面击败了 SOTA。

到 2012 年,谷歌设计了一个生产版本,显着改善了 Android 上的语音搜索。这是深度学习颠覆性力量的早期证明。

大约在同一时间,深度学习在 2012 年 ImageNet 竞赛中取得了戏剧性的胜利,在识别自然图像中一千种不同类别的物体时,错误率几乎减半。这场胜利的关键是李飞飞的主要努力和她的合作者为训练集收集了超过一百万张带标签的图像,并且 Alex Krizhevsky 非常有效地使用了多个 GPU。

当前的硬件(包括 GPU)鼓励在多次使用该权重时分摊从内存中获取权重的成本。使用每个权重一次的纯在线随机梯度下降会更快收敛,并且未来的硬件可能只是就地使用权重而不是从内存中获取它们。

深度卷积神经网络包含一些新颖性,例如使用 ReLU 使学习更快,使用 dropout 防止过拟合,但它基本上只是 Yann LeCun 和他的那种前馈卷积神经网络计算机视觉社区对这一突破的反应令人钦佩。

鉴于卷积神经网络优越性的无可争议的证据,社区迅速放弃了以前的手工设计方法,转而使用深度学习

近期进展

在这里,我们有选择地讨论深度学习的一些最新进展。不过我们在此暂且忽略了许多重要的主题,例如深度强化学习、图神经网络元学习

1)软注意力机制和 transformer 架构深度学习的一个重大发展,尤其是在顺序处理方面,是乘法交互的使用,特别是在软注意力的形式中。这是对神经网络工具箱的变革性补充,因为它将神经网络从纯粹的矢量转换机器转变为可以动态选择对哪些输入进行操作的架构,并且可以将信息存储在可区分的关联存储器中。这种架构的一个关键特性是它们可以有效地对包括集合和图在内的不同类型的数据结构进行操作。

隐藏层可以使用软注意力来动态选择它们将组合来自前一层的哪些向量来计算它们的输出。这可以使输出独立于输入的呈现顺序或使用不同输入之间的关系。

Transformer 架构已经成为许多应用中的主导架构,它堆叠了许多层 “self-attention” 模块。

层中的每个模块使用标量积来计算其查询向量与该层中其他模块的关键向量之间的匹配。匹配项被归一化为总和为 1,然后使用产生的标量系数来形成前一层中其他模块产生的值向量的凸组合。结果向量形成下一计算阶段的模块的输入。模块可以是多头的,以便每个模块计算几个不同的查询、键和值向量,从而使每个模块有可能有几个不同的输入,每个输入都以不同的方式从前一阶段的模块中选择。

在此操作中,模块的顺序和数量无关紧要,因此可以对向量集进行操作,而不是像传统神经网络中那样对单个向量进行操作。例如,语言翻译系统在输出句子中生成一个单词时,可以选择关注输入句子中对应的一组单词,而与其在文本中的位置无关。虽然乘法门控是诸如坐标变换和循环网络的强大形式之类的旧思想,但其最近的形式使其成为主流。

我们相信深度网络之所以出色,是因为它们利用了一种特定形式的组合性,其中一层中的特征以多种不同的方式组合,以在下一层创建更多抽象特征。

Transformer 带来了显着的性能改进,彻底改变了自然语言处理,现在它们在工业中得到了大量使用。这些系统都以自我监督的方式进行了预训练,以预测一段文本中的缺失词。

也许更令人惊讶的是,Transformer 已成功地用于符号求解积分方程和微分方程。最近一个非常有前景的趋势是在卷积网络上使用 Transformer,以最先进的性能在图像中进行对象检测和定位。Transformerransformer 以可微分的方式执行后处理和基于对象的推理,使系统能够接受端到端的训练。

2)无监督和自监督学习监督学习虽然在各种任务中取得成功,但通常需要大量人工标记的数据。同样,当强化学习仅基于奖励时,它需要非常大量的交互。这些学习方法往往会产生特定于任务的专业系统,这些系统通常在他们接受过训练的狭窄领域之外是脆弱的。减少学习任务所需的人工标记样本数量或与世界的交互并提高域外鲁棒性对于低资源语言翻译、医学图像分析、自动驾驶和内容过滤。

人类和动物似乎能够以独立于任务的方式学习大量关于世界的背景知识,主要是通过观察。这些知识巩固了常识,让人类只需几个小时的练习就可以学习复杂的任务,例如驾驶。人工智能未来的一个关键问题是,人类如何仅从观察中学到这么多?

监督学习中,N 个类别之一的标签平均最多传达 log2 (N) 位关于世界的信息。在无模型强化学习中,奖励同样仅传达少量信息。相比之下,音频、图像和视频是高带宽模式,隐含地传达了有关世界结构的大量信息。这激发了一种称为自监督学习的预测或重建形式,它通过预测数据的掩蔽或损坏部分来训练 “填补空白”。自监督学习在训练 Transformer 提取向量方面非常成功,这些向量捕获了单词或单词片段的上下文相关含义,并且这些向量非常适合下游任务。

对于文本,Transformer 被训练从一组离散的可能性中预测丢失的单词。但是在视频等高维连续域中,特定视频片段的合理延续集庞大而复杂,正确表示合理延续的分布本质上是一个未解决的问题。

3)对比学习:解决此问题的一种方法是通过潜在变量模型,该模型为视频示例和可能的延续分配能量。

给定输入视频 X 和合理的延续 Y,我们希望模型通过使用能量函数 E (X, Y) 来指示 Y 是否与 X 兼容,该函数在 X 和 Y 兼容时取低值,否则取高值。

E (X, Y) 可以由深度神经网络计算,对于给定的 X,以对比的方式训练,为与 X 兼容的值 Y 提供低能量(例如 (X, Y) 对),以及与 X 不兼容的 Y 的其他值的高能量。对于给定的 X,推理包括找到一个使 E (X, Y) 最小化的 Y 或者可能从 Y 中采样具有较低的 E (X, Y) 值。这种基于能量的方法来表示 Y 依赖于 X 的方式,这使得建模多样化、多模态的合理延续集成为可能。

对比学习的关键难点是选择好的 “负” 样本:合适的点 Y,其能量会被推高。当可能的反例集合不是太大时,我们可以将它们全部考虑。这就是 softmax 的作用,因此在这种情况下,对比学习简化为对有限离散符号集的标准监督或自监督学习。但是在实值高维空间中,Y 的预测与 Y 有很大不同,为了改进模型,我们需要关注那些本应具有高能量但当前能量较低的 Y。

早期选择负样本的方法基于蒙特卡罗方法,例如受限玻尔兹曼机的对比散度和噪声对比估计。

GAN 优化起来有些棘手,但事实证明,对抗性训练思想极其丰富,在图像合成方面产生了令人印象深刻的结果,并在内容创建和领域适应以及领域或风格转移方面开辟了许多新应用。

4)对比学习的表示一致性:对比学习提供了一种无需重建或生成像素即可发现好的特征向量的方法。

这个想法是学习一个前馈神经网络,当给定相同图像的两个不同裁剪或同一对象的两个不同视图时,该网络会产生非常相似的输出向量,但来自不同图像或不同对象视图的裁剪的输出向量不同。两个输出向量之间的平方距离可以被视为一种能量,小值说明兼容,大值说明不兼容。

最近的一系列使用卷积网络提取一致表示的论文在视觉特征学习中产生了有希望的结果。

正对由同一图像的不同版本组成,这些版本通过裁剪、缩放、旋转、颜色偏移、模糊等方式扭曲。负对是不同图像的类似失真版本,它们可以通过称为硬负挖掘的过程从数据集中巧妙地挑选出来,或者可能只是小批量中其他图像的所有失真版本。网络较高层之一的隐藏活动向量随后用作以监督方式训练的线性分类器的输入。这种连体网络方法在标准图像识别基准上取得了出色的结果。

最近,两种 Siamese 网络方法设法避免了对对比样本的需求。第一个称为 SwAV,量化一个网络的输出以训练另一个网络,第二个称为 BYOL,平滑两个网络之一的权重轨迹,这显然足以防止崩溃。

5)变分自动编码器:最近流行的一种自监督学习方法是变分自动编码器 (VAE)。它由将图像映射到潜在代码空间的编码器网络和从潜在代码生成图像的解码器网络组成。VAE 通过在将高斯噪声传递到解码器之前将高斯噪声添加到编码器的输出来限制潜在代码的信息容量。这类似于将小的嘈杂球体打包成具有最小半径的较大球体。

信息容量受限于包含球体内部有多少噪声球体。嘈杂的球体相互排斥,因为良好的重构误差需要对应于不同样本的代码之间有小的重叠。

在数学上,该系统最小化了通过在噪声分布上对潜在代码进行边缘化而获得的自由能。然而,相对于参数最小化该自由能是棘手的,并且必须依赖来自统计物理学的变分近似方法来最小化自由能的上限。

深度学习的未来

深度学习系统的性能通常可以通过简单的扩展来而得到显著提高。有了更多的数据和更多的计算,它们通常会更好地工作。具有 1750 亿个参数语言模型 GPT-3(与人脑中的突触数量相比仍然很小)生成的文本,明显优于只有 15 亿个参数GPT-2

随着聊天机器人 Meena 和 BlenderBot 变得越来越大,它们也在不断改进。

现在正在为扩大规模付出巨大的努力,可以大大改进现有系统,但当前深度学习存在一些根本性的缺陷,无法仅仅通过扩大规模来克服。

我们将人类学习能力与当前的人工智能进行比较,提出了几个改进方向:

  • 监督学习需要太多标记数据,而无模型强化学习需要太多试验。人类似乎能够以少得多的经验很好地概括。

  • 当前的系统对分布变化的鲁棒性不如人类,人类可以通过很少的例子快速适应这种变化。

  • 当前的深度学习感知任务和通常所谓的 system 1 任务方面最为成功。将深度学习用于需要经过深思熟虑步骤序列的 system 2 任务,是一个仍处于起步阶段的令人兴奋的领域。


1)需要改进的点:从早期开始,机器学习的理论家就关注 IID 假设,即测试用例应该来自与训练示例相同的分布。

不幸的是,这在现实世界中并不是一个现实的假设:只需考虑由于各种代理改变世界的行为引起的非平稳性,或者学习代理的逐渐扩大的思维视野,总是有更多的东西需要学习和发现。实际上,当今最好的 AI 系统在从实验室到现场时的性能往往会受到影响。

我们希望在面对分布变化(称为分布外泛化)时实现更大的鲁棒性,这是在面对新任务时降低样本复杂性(良好泛化所需的示例数量)的更普遍目标的一个特例 —— 如在迁移学习和终身学习中 —— 或者只是改变分布或世界状态与奖励之间的关系。当前的监督学习系统需要比人类更多的例子(当必须学习一项新任务时),而无模型强化学习的情况更糟,因为每个奖励试验提供的关于任务的信息比每个标记的例子少。

人类可以以一种不同于普通 IID 泛化的方式进行泛化:我们可以正确解释现有概念的新组合,即使这些组合在我们的训练分布下极不可能,只要它们尊重我们已经学到的高级句法和语义模式。最近的研究帮助我们阐明了不同的神经网络架构在这种系统化泛化能力方面的表现。如何设计具有这些能力的未来机器学习系统,以更好地泛化或更快地适应样本外分布?

2)从同质层到代表实体的神经元:来自神经科学的证据表明,相邻的神经元组(形成所谓的超列)紧密相连,可能代表一种更高级别的向量值单元,不仅能够发送标量,而且能够发送一组协调值。这个想法是胶囊架构的核心,也是软注意力机制的使用所固有的,其中集合中的每个元素都与一个向量相关联,从中可以读取一个键向量和一个值向量(有时也是查询向量)。考虑这些向量级单元的一种方法是表示对象的检测及其属性(如在胶囊中的姿势信息)。

计算机视觉领域的最新论文正在探索卷积神经网络的扩展,其中层次结构的顶层代表在输入图像中检测到的一组候选对象,并且对这些候选对象的操作是使用类似转换器的架构来执行的。为对象及其部分分配内在参考框架并通过使用部分之间的几何关系来识别对象的神经网络应该更不易受到定向对抗性攻击的影响,后者依赖于人们使用的信息与神经网络使用的信息之间的巨大差异。网络来识别物体。

3)多时间尺度:大多数神经网络只有两个时间尺度:权重在许多示例中适应缓慢,活动适应随着每个新输入而迅速变化。添加快速适应和快速衰减的 “快速权重” 的叠加会引入有趣的新计算能力。特别是,它创建了一个高容量的短期记忆,允许神经网络执行真正的递归,其中相同的神经元可以在递归调用中重复使用,因为它们在更高级别调用中的活动向量可以在以后重建 使用快速权重中的信息。在学习学习或元学习中也会出现多种适应时间尺度。

4)更高层次的认知:在考虑新的挑战时,例如在交通规则异常的城市中驾驶,甚至想象在月球上驾驶车辆时,我们可以利用我们已经掌握的知识和通用技能,并以新的方式动态地重新组合它们。这种成体系的形式,允许人类在未知环境中进行相当好的泛化。通过练习、微调和编译这些新技能进一步改进,也可以不再需要有意识的关注了。

我们如何通过重用已知的知识来使神经网络能够快速适应新环境,从而避免干扰已知技能?在这个方向上的初步探索包括 Transformers 和 Recurrent Independent Mechanisms。

似乎人类的(system 1)处理能力允许我们在计划或推理时猜测未来的潜在益处或害处。这提出了 system 1 网络如何指导更高(system 2)级别的搜索和规划的问题,也许和 AlphaGo 的蒙特卡洛树搜索的价值函数如出一辙。

机器学习研究依赖于归纳偏差或先验,以鼓励在与某些世界假设兼容的方向上进行学习。system 2 处理的性质和认知神经科学理论表明了几种这样的归纳偏差和架构,它们可用于设计新颖的深度学习系统。我们如何设计包含这种归纳偏差的深度学习架构和训练框架?

人类幼儿执行因果发现的能力表明,这可能是人类大脑的一个基本属性,最近的工作表明,在干预变化下优化分布外泛化可用于训练神经网络以发现因果依赖性或因果变量 。我们应该如何构建和训练神经网络,以便它们能够捕捉到世界的这些潜在因果属性?

这些开放性问题所建议的方向与 20 世纪的符号人工智能研究有何关联?显然,符号 AI 方法旨在实现 system 2 的能力,例如推理,能够将知识分解为可以在一系列计算步骤中轻松重新组合的部分,以及能够操作抽象变量、类型和实例。

我们希望设计出这样一种神经网络:它保留了深度学习的优势,可以在处理实值向量的同时,实现使用可微计算和基于梯度的、自适应的高效大规模学习,高级 / 低级感知、处理不确定数据和使用分布式表示。

Reference:
1、https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

理论趋势深度学习Geoffrey HintonYoshua BengioYann LeCun
相关数据
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

线性分类器技术

机器学习通过使用对象的特征来识别它所属的类(或组)来进行统计分类。线性分类器通过基于特征的线性组合的值进行分类决策。 对象的特征也称为特征值,通常在称为特征向量的向量中呈现给机器。

类比推理技术

在两种情况或事件之间感知和使用关系相似性的能力 - 是人类认知的一个基本方面。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

生物神经网络技术

生物神经网络(Biological Neural Networks)一般指生物的大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

蒙特卡罗方法技术

蒙特卡罗方法,也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数来解决很多计算问题的方法。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

特征检测技术

特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

软注意力机制技术

软注意力机制 (soft attention mechanism) 通过选择性地忽略部分信息来对其余信息进行重加权聚合计算,已在计算机视觉领域取得了广泛的应用和成功。现有的注意力模型主要是基于soft attention的,所有信息在被聚合之前会以自适应的方式进行重新加权。这样可以分离出重要信息,并避免这些信息受到不重要信息的干扰,从而提高准确性。随着不同信息之间相互作用的复杂度的降低,学习就变得越有效。

受限玻尔兹曼机技术

受限玻尔兹曼机(英语:restricted Boltzmann machine, RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络。RBM最初由发明者保罗·斯模棱斯基于1986年命名为簧风琴(Harmonium),但直到杰弗里·辛顿及其合作者在2000年代中叶发明快速学习算法后,受限玻兹曼机才变得知名。受限玻兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同,受限玻兹曼机可以使用监督学习或无监督学习的方法进行训练。受限玻兹曼机也可被用于深度学习网络。具体地,深度信念网络可使用多个RBM堆叠而成,并可使用梯度下降法和反向传播算法进行调优。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

符号人工智能技术

符号人工智能是指人工智能研究中所有的基于高阶“符号”(人类可读)表示的问题、逻辑和搜索的方法的集合。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

认知神经科学技术

认知神经科学(英语:Cognitive neuroscience)是一门科学学科,旨在探讨认知历程的生物学基础。主要的目标为阐明心理历程的神经机制,也就是大脑的运作如何造就心理或认知功能。认知神经科学为心理学和神经科学的分支,并且横跨众多领域,例如生理心理学、神经科学、认知心理学和神经心理学。认知神经科学以认知科学的理论以及神经心理学、神经科学及计算机模型的实验证据为基础。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~