全面解读ICML 2017五大研究热点

一、强化学习

Reinforcement Learning

强化学习机器学习的重要分支,通过试错或模仿专家的方式学习可靠策略,解决序列决策问题。其应用领域包括视频游戏AI、无人驾驶、机器人控制、物流管理和仓储调度等。粗略统计,本届ICML有40余篇强化学习相关论文,涵盖了收敛性分析、连续控制、搜索与探索、多智能体与博弈论模仿学习与转导、端到端深度强化学习等多个方面。

这次会议的研究中体现出三大特点:一、深度学习范式被广为采用,研究者将对问题的理解和先验知识做成了复杂网络模型的子模块,并采用端到端的方式训练;二、来自机器人领域的学者持续影响连续控制方面的研究;三、团队配合多智能体方面的研究吸引了越来越多的注意力。另外,「视频游戏与机器学习」研讨会(Workshop)环节发布了新的强化学习模拟器平台。我们重点关注了以下文章:

1) FeUdal Networks for Hierarchical Reinforcement Learning

本文由Google DeepMind发表。策略网络被划分为两个模块:管理者和工作者。管理者模块在低时间分辨率工作,产生中长期子目标;工作者模块在高时间分辨率工作,从管理者模块拿到子目标,并上原始的环境观测一起输出当前时刻的决策动作。本文这种精巧设计的网络结构能自动「发现」子目标,并自动学出相应的「子策略」,而之前的工作都采用了手调子目标的方式,在灵活性和通用性不如本文所提出的算法。

本文的管理者-工作者网络结构

实验表明该方法确实能够成功的自动发现「子目标」并学出「子策略」。下图展示了该方法在「蒙特祖玛的复仇」游戏环境[1]上的结果。

[1]该游戏特点是有多幕切换,奖励信号稀疏且延迟很长,例如在某一幕拿到了剑要再回到前两幕斩杀某个骷髅怪。

2)Improving Stochastic Policy Gradients in Continuous Control with Deep Reinforcement Learning using the Beta Distribution

本文由卡内基梅隆大学发表。假设输出的连续控制信号从Beta分布中采样,本文通过一个深度神经网络直接学习、预测Beta分布的两个参数。在连续控制的文献中,以往工作多采用高斯分布假设并直接学习和预测高斯分布的均值和方差。但高斯分布在数值上是无界的,对一些需要安全策略的场合这种性质极不合理。例如,自动驾驶中,左右打盘的角度无论如何不能太大。而Beta分布刚好满足左右有界这一性质(如下图)。

本文方法的实现非常简单但又十分有效,在机器人控制模拟环境mujoco的多个任务中取得的结果超过了基于高斯分布的连续控制方法(如下图)。

3) Coordinated Multi-Agent Imitation Learning

本文由加州理工大学、迪斯尼研究院和STATS公司(该公司有大量体育比赛的各类实际数据)联合发表,通过模仿学习方式学出多智能体控制模型。本文收集了大量英超足球比赛数据,使用结构学习方式自动学出智能体和实际数据的合理对应关系。这里的对应关系是指,比如当前智能体在某个具体位置到底是更适合学习前锋、前卫还是中场的行为。

通过动态构造对应关系,本文算法绕开了多智能体模仿学习中对应关系可能存在模糊或不确定性这一难题,例如边后卫助攻到前场后,到底该表现得更像后卫还是更像前锋。实验表明该方法学出的控制策略与专家数据(来自实际的英超比赛)更为接近,见下左图中的白圈,而定量结果可见下图右。

4)其他话题

在「视频游戏与机器学习」研讨会环节,暴雪公司宣布开源并发布《星际争霸2》的C++编程接口,开发者通过其可获得游戏内部状态、操纵游戏单位执行指定动作等。其还公布了几十万一对一比赛回放文件,记录了匿名玩家的操作序列。暴雪还与Google DeepMind合作,推出了相应的Python版本接口。

C++ APIs效果现场演示

Python接口,访问特征图层

另外,Facebook AI Research发布了新的强化学习框架ELF,其特点为支持多种环境-执行器的并发模型(一对一,多对一、一对多,多对多),这会为现代强化学习算法的实现,如模特卡罗树搜索(MCTS)和自我对战(Self Play),带来极大便利。

二、随机优化

Stochastic Optimization

随机优化算法是指每次只随机采样一个或少量几个(Mini-batch)训练样本对模型更新的优化方法。因其有低内存消耗、低单次迭代计算复杂度等特点,被广泛应用于大规模机器学习模型训练中,包括绝大多数深度学习模型的训练。粗略统计,本届ICML有20余篇随机优化相关论文,大致可分为一阶随机优化、二阶随机优化和非凸随机优化三个大方向。

本次会议的相关论文中体现出两大特点:二阶随机优化算法被更多研究者所关注;非凸随机优化,特别是针对深度学习的非凸随机优化算法成为一个新的研究热点。我们重点关注了以下几篇论文:

1)Follow the Moving Leader in Deep Learning

本文由香港科技大学发表。在深度学习中,参数以及数据分布都会随着迭代进行不断变化,这使得深度学习模型的训练一直是一个具有挑战性的问题。针对这一问题,本文提出了全新的FTML算法,具有更快收敛速度。与已有优化算法(如FTRL)不同的是,本文的FTML算法迭代中,越新样本具有越大权重,这使算法更能适应数据分布变化,有更快收敛速度。多个数据集上深度学习模型训练实验结果显示,FTML比其他已有算法收敛更快。

模型训练实验结果

2)Natasha: Faster Non-Convex Stochastic Optimization Via Strongly Non-Convex Parameter

本文由微软研究院发表。随机梯度下降梯度下降是当前求解非凸机器学习模型的常用方法,本文借用方差下降随机优化算法SVRG的关键思路,并对目标函数的强非凸性做更细致的分析,提出了针对于非凸随机优化问题的新算法Natasha,比目前标准算法更高效。作者的创新之处,是提出了一套针对强非凸函数更细致的分析方法,并在此基础上设计了针对非凸优化问题更精细的随机算法,能有效利用强非凸函数的结构信息。理论分析结果显示,在强非凸参数大于某个常数时,本文所提出的算法具有更低的计算复杂度。

计算复杂度对比结果

3)A Unifying Framework for Convergence Analysis of Approximate Newton Methods

本文由上海交通大学和北京大学联合发表。近似牛顿算法,如Sketched-Newton和Subsampled-Newton,是一类高效的二阶随机优化算法,因其单次迭代计算复杂度较低、收敛速度快等特点受到广泛关注。但已有理论的分析结果和其在实际应用中的性能表现在很多方面并不一致。本文为二阶随机优化算法提出了一套新的分析工具,解决了多个理论及应用中表现不一致的问题。

在创新点上,作者将多种近似牛顿算法统一到同一个算法框架中,对其局部收敛性质做统一分析,解决了多个理论分析结果和实际应用性能不一致的问题,并为新算法设计提供了新的思路。本文从理论上证明了:一、近似牛顿算法的线性收敛速度不需要Hessian矩阵满足Lipschitz连续,但是算法平方收敛速度需要此连续。二、Hessian矩阵的条件数和Sketched-Newton的性能不相关。 

三、连续(非)凸优化

Continuous Optimization

连续(非)凸优化机器学习中起着举足轻重的作用,大部分机器学习问题均可建模成某一类连续(非)凸优化问题。粗略统计,本届ICML大概有40篇连续优化的论文,其中半数以上为非凸连续优化内容。另外,由于深度学习的流行,一阶优化算法相关论文也占有相当大的比重。我们将重点介绍以下三个研究:

1)GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term Nonsmooth Convex Composite Optimization

这篇论文由腾讯AI Lab、中山大学和香港中文大学合作完成,提出了新的求解多块非光滑复合凸优化问题的算子分裂算法。该算法采用Gauss-Seidel迭代及算子分裂的技巧处理不可分的非光滑正则项。通过用单调算子理论,文中给出多块非光滑复合凸优化问题最优解集以及算法的等价刻画,并利用该等价刻画来巧妙的建立了所提算法的全局收敛性。最后本文以实验证实了该算法的有效性。

2)Exploiting Strong Convexity from Data with Primal-Dual First-Order Algorithms

这篇论文由芝加哥大学和微软研究院共同完成,提出两类新的原对偶一阶算法来求解经验风险最小化的凸优化问题。通过自适应地利用样本数据中暗含的强凸性质,文中证明了这两类新算法的线性收敛速率。另外,通过利用Dual-free的技巧,文中将算法中Euclidean距离下的邻近算子替换为Bregman距离下的邻近算子,从而得到两类Dual-free原对偶算法变体。最后实验证明该算法的有效性。

3)Dual Iterative Hard Thresholding: From Non-convex Sparse Minimization to Non-smooth Concave Maximization

这篇论文由罗格斯大学和南京信息工程大学共同完成,作者首次建立了有稀疏约束的极小化问题Lagrange对偶理论。基于此,本文提出了求解具有稀疏约束的极小化问题的对偶硬阈值(Dual ITH)算法及其随机版本的变体,并在无需采样算子满足限制同构性质(RIP)的条件下建立了算法收敛性。这篇论文从实验上说明了该算法在具有稀疏约束的极小化问题上效果为目前最佳。

四、分布式机器学习

Distributed Machine Learning

分布式机器学习旨在研究如何以平行、分布式方式来设计算法和系统,实现对大规模海量数据的高效处理。其研究涉及算法和系统两个方面,本届ICML的相关研究主要以算法设计为主。依照分布式类型,主要有中心化分布式和去中心化分布式两种。

粗略统计,本届ICML有13篇分布式机器学习相关论文。其中6篇为传统分布式机器学习算法(优化算法)设计,中心化分布式和去中心化分布式各占3篇;此外,1篇论文讨论了中心化分布式场景下,如何利用数据稀疏性降低通信消耗;1篇讨论了通信限制条件下的中心化分布式算法设计;另外几篇则涉及高斯过程、汤普森采样和聚类算法等的中心化分布式算法设计。

从研究上本届ICML有三大研究趋势:一、去中心化的分布式机器学习得到了越来越多关注;二、异步通信仍是分布式机器学习关注的重要方向;三、在贝叶斯优化、高斯过程、聚类算法等具体领域,开始有更多分布式研究。我们重点关注了以下几篇文章:

1) Projection-free Distributed Online Learning in Networks

本文由清华大学计算机系与腾讯AI Lab联合发表,首次提出了免投影的分布式在线学习算法,并给出了它的悔界上界(Regret Bound)。后者依赖于网络大小和拓扑结构,随网络增大而增大,随网络拓扑连接性能提升而减小。相较于传统的有投影分布式在线算法,本文的算法计算复杂度明显降低,能高效处理分布式在线数据流,克服了传统有投影算法需复杂投影计算的问题。

2) Asynchronous Stochastic Gradient Descent with Delay Compensation

本文由中国科技大学与微软亚洲研究院(MSRA)联合发表,提出了延迟补偿的异步随机梯度下降算法。传统异步随机梯度下降算法直接使用延迟的梯度,而该文则给出了一种补偿延迟梯度的算法。补偿方法利用梯度函数的一阶近似,即损失函数的二阶近似来估计延迟的梯度,使算法能取得优于异步随机梯度算法的效果。从创新点上,该文首次提出了对延迟梯度的估计思路,并应用在实际的深度学习训练当中。

3) A Parallel and Distributed Thompson Sampling for Large-scale Accelerated Exploration of Chemical Space

本文由剑桥大学和IBM联合发表。汤普森采样算法是贝叶斯优化领域的经典算法,可对搜索空间做高效探索,但当前算法无法实现大规模并行化。本文提出了分布式的汤普森采样算法,并在具有大规模搜索空间的化学实验中验证了该算法的有效性。

五、递归神经网络

Recurrent Neural Networks

递归神经网络(RNN),尤其是LSTM和GRU,已经在时序性数据(Sequential Data)建模与生成都取得了显著的效果。RNN研究已是深度学习一个重要研究方向。去年的ICML,所有深度学习相关论文、至少三个Session都提及了神经网络深度学习。而今年的ICML中,有4个session专门介绍最近RNN的进展,包括一些新的RNN模型,如Recurrent Highway Networks,和一些RNN在音乐、音频和视频数据上的应用。这说明主流学术界与工业界近期对RNN有很大关注度。我们也重点关注了以下几篇研究:

1) Recurrent Highway Networks

本文由苏黎世联邦理工学院及卢加诺大学的IDSIA实验室联合完成。Recurrent Highway Network (RHN) 是对LSTM框架的一种扩展。LSTM Step之间的变换深度(Transition  Depth)为1,而RHN允许该深度高于1,因而进一步学习信号间的复杂关系。在一些语言建模任务上,RHN显示了更强大的能力,如在Penn Treenbank数据集上Word Level的perplexity从90.4降到了65.4。

2) Attentive Recurrent Comparators

本文由北卡罗来纳大学和印度科学研究院共同完成。Attentive Recurrent Comparator (ARC) 可学习一个近似的动态表示空间用于极小样本学习。在极小样本学习公开数据集合Omniglot上,错误率降低为1.5%,可以说是在这个人物的公开测评库上,AI超过了人类的识别水平。这个工作主要模拟人类比较两个图像相似度的行为,用一个RNN网络协调整个过程,采用相应注意力模型让两幅图像交替比对。在每一个Time Step,结合图像局部区域信息和RNN的前一个时刻状态,产生当前时刻状态。RNN的最终状态可推导出两副图像的相关性表示(Relative Representation)。

ARC在极小样本应用上有两种处理方式:一是采用朴素的ARC模型,将给定测试图像与数据集合的所有图像比对,返回最相似的图像对应的所属类别;第二种方式成为Full Context ARC,在采用朴素的ARC将测试图像与数据集合的图像比对后,得到相应的相关性表示。这一步学习了局部的两两之间比对关系,基于相关性表示,进而使用双向LSTM学习全局的比对信息。朴素ARC模型和Full Context ARC模型在Omniglot数据集上都取得了超过人类的识别能力;另外,前者在MiniImageNet数据集上的测试结果也超越了Matching Networks等模型。

3)Learning to Generate Long-term Future via Hierarchical Prediction

本文由谷歌大脑、Adobe和密歇根大学联合发表,文中介绍了一个层次(Hierarchical)方法预测长时(long-term)视频未来帧。模型先估计输入视频帧的高阶结构信息,再预测此信息如何在未来视频帧进化,最终给定一个单帧图像和预测得到的高阶结构信息,来重构未来视频帧像素级别的信息。文中提出的模型使用LSTM预测视频结构信息,和一个Analogy-based encoder-decoder CNN产生未来视频帧。其预测性能在Human3.6M和Peen Action datasets数据集上均取得了很好结果。

4) Delta Networks for Optimized Recurrent Network Computation

本文由苏黎世联邦理工学院、苏黎世大学和三星综合技术院等机构共同发布。神经网络的激活模式(Activation Pattern)一般呈现出稳定输出,为进一步处理这样的自然信号,该论文提出了一个Delta Network,其中每个神经元只在其激活值超越一个阈值时传输相应的信号。虽然一个朴素的Delta Network在内存使用和计算量上有一定程度提升,但是其能在训练阶段以较快时间得到较高准确度。在TIDIGITS Audio Digit Recognition Benchmark数据集上提高了9倍训练效率,而准确度基本无损失。在另一个自动驾驶数据集上,使用一个端到端的CNN-RNN网络来完成Steering Angle Prediction,RNN训练效率显著提高了100倍。在WSJ的语音识别数据集上,Delta Networks可在不损失精度的情况下,提高5.7倍训练效率。

5)The Statistical Recurrent Unit

本文由卡内基梅隆大学发表,文中提出了一个没有门操作的RNN单元,即Statistical Recurrent Unit (SRU),可保证Moving Average of Statistics来学习序列信号的长时(long-term)依存特性。SRU结构简单,没有相应门操作,跟LSTM的参数量比较一致。在合成数据上,相较于LSTM/GPU,SRU可学习多尺度循环统计特性(Multi-scale Recurrent Statistic)。而且SRU在学习一维信号的长时依赖,其性能也优于LSTM/GRU。具体说来,SRU在MNIST数据集分类、多声部音乐(polyphonic music)建模、一维天气数据建模等任务上性能优于LSTM或GRU。

6)Tensor-Train Recurrent Neural Networks for Video Classification

该论文由西门子公司与德国慕尼黑大学联合发表,通过Tensor-train Decomposition的方式分解Input-to-hidden矩阵,以处理RNN中高维度的输入信号,如视频建模(video modeling)任务。现阶段对视频类高维度的输入信号,都通过CNN操作将视频每一帧表示为一个特征向量,降低相应维度,后使用RNN建模时序信息。在UCF101等现有视频数据集上,该方法取得了与当前最优方法匹敌的结果,但是其计算复杂度远低于朴素的RNN。本文提出的Tensor-train Factorization可构建一个Tensor-train Layer替换Input-to-hidden的大矩阵,还可与RNN共同用端对端训练方式完成训练。

除了上述的RNN模型创新外,RNN应用于时序数据,尤其是音频、音乐、语音等数据,也取得了显著的进展。比如研究Text-to-speech的进展[1]、音频合成工作[2]和巴赫音乐的产生[3]等。

相关论文为:[1] Deep voice: Real-time neural Text-to-speech;[2] Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders;[3] DeepBach: A Steerable Model for Bach Chorales Generation

腾讯AI实验室
腾讯AI实验室

入门分布式机器学习递归神经网络连续凸优化随机优化机器学习强化学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

结构学习技术

结构化预测是监督学习,分类和回归的标准范式的一种推广。 所有这些可以被认为是找到一个能最大限度减少训练集损失的函数。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

因式分解技术

在数学中,把一个数学因子(比如数字,多项式,或矩阵)分解其他数学因子的乘积。比如:整数15可以分解成两个质数3和5的乘积,一个多项式x^2 -4 可被因式分解为(x+2)(x-2)。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

混乱度技术

衡量概率分布或概率模型预测样本能力的一个度量单位,其可以被用来比较概率模型的好坏,值越低表示在预测样本方面的效果越好。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~