2018/10/15 13:20

吴郦军、罗人千作者

关于机器学习，你应该知道的3个热门专业术语

编者按：如果你是刚入门机器学习的AI探索者，你知道什么是胶囊网络吗？AutoML和元学习又是什么？为了帮大家节省查阅晦涩难懂的论文的时间，我们邀请微软亚洲研究院机器学习组实习生吴郦军、罗人千帮大家用最通俗的语言解释了这三个机器学习领域的热门词汇，赶紧收藏吧！

胶囊网络Capsule Networks

胶囊网络（Capsule Networks）是深度学习三巨头之一的Geoffrey Hinton提出的一种全新的神经网络。最初发表在2017年的NIPS会议上：Dynamic Routing Between Capsules。胶囊网络基于一种新的结构——胶囊（Capsule），通过与现有的卷积神经网络（CNN）相结合，从而在一些图像分类的数据上取得了非常优越的性能。

何谓胶囊？简单来说，胶囊就是将原有大家熟知的神经网络中的个体神经元替换成了一组神经元组成的向量，这些神经元被包裹在一起，组成了一个胶囊。因此，胶囊网络中的每层神经网络都包含了多个胶囊基本单元，这些胶囊与上层网络中的胶囊进行交互传递。

胶囊网络的主要特点是什么呢？与传统CNN相比优势是什么呢？下图简单比较了胶囊和传统的神经网络中神经元的不同。

两者最大的不同在于，胶囊网络中的神经元是一个整体，包含了特征状态的各类重要信息，比如长度、角度、方向等，而传统的CNN里每个神经元都是独立的个体，无法刻画位置、角度等信息。这也就是为什么CNN通过数据增广的形式（对于同一个物体，加入不同角度、不同位置的图片进行训练），能够大大提高模型最后的结果。

胶囊网络能够保证图像中不同的对象（比如人脸中的鼻子、眼睛、嘴巴）之间的相对关系不受角度改变的影响，这一特性来自于图形图像学的启发。对于3D图像，人类的大脑能够在不同的位置对于这个图像都做出准确的判别。当我们以向量的形式将特性状态封装在胶囊中时，胶囊拥有状态特性的长度（以概率形式加权编码）以及状态的方向（特征向量的方向）。因此对于胶囊来说，长度相同的特征，其方向也存在着变化，而这样的变化对于模型训练就正如不同角度的增广图像。

胶囊的工作原理是基于“囊间动态路由”的算法，这是一种迭代算法。简单地说，两层之间的胶囊信息传递，会通过计算两者之间的一种相关信息来决定下层的胶囊如何将自己的特征传递给上层的胶囊。也就是说，下层胶囊将其输出发送给对此表示“同意”的上层胶囊，利用输入与输出之间的点积相似性，来更新路由间的系数。

跟传统的CNN相比，当前的胶囊网络在实验效果上取得了更好的结果，但是训练过程却慢了很多，因此胶囊网络依然很有很大的发展空间。

自动机器学习AutoML

在实际的AI应用中，如果想让机器学习获得比较好的学习结果，除了对数据进行初步分析、处理，可能还需要依赖领域知识对数据进行进一步的特征提取和特征选择，然后根据不同的任务及数据特征选择合适的机器学习模型，在训练模型时还要调大量的超参数，尝试各种tricks。整个过程中需要花费大量的人工和时间。因此，机器学习从业者都戏称自己是“调参工程师”，称自己的工作是“有多少人工就有多少智能”。对于初入门的小白及大量普通开发者来说，机器学习工具比较难以掌握。

为了减少这些需要人工干预的繁杂工作，自动机器学习（Automatic Machine Learning，简称AutoML）应运而生。它能自动选择合适的算法模型以及调整超参数，并最终取得不错的学习效果。简单来说，自动机器学习过程就是用户提供数据集，确定任务目标，之后的工作就交给AutoML来处理，用户将会得到一个训练好的模型。这大大降低了使用机器学习工具的门槛，让机器学习工具的使用过程变得简单、轻松。

我们以AutoML里的一个子领域NAS（Neural Architecture Search，神经网络结构搜索）为例。顾名思义，NAS是自动搜索神经网络的结构。传统神经网络都是由人工设计的，经过长时间的演化迭代，从AlexNet到DenseNet，性能不断上升，效果也不断提升。但正如前文所说，神经网络结构的演化过程耗费了大量的人工。不同的基础网络结构，如AlexNet、VGG、ResNet、DenseNet等需要深度学习的专业研究人员进行研究改进，而它们在具体任务上的应用又需要进一步调整相应的参数和结构。

NAS旨在针对给定的数据集和学习任务，自动搜索出适用于该任务的好的网络结构。决定一个神经网络“区别于其它网络”的关键因素包括网络结构里每层的运算操作（如不同种类、大小的卷积和池化操作）、每层的大小、层与层之间的连接方式、采用的激活函数等。这些关键因素在传统的人工设计的神经网络里都是固定的，但在自动搜索网络结构里可能都是未知的。算法需要通过自动搜索进而最终决定一个神经网络的结构。

2016年Barret Zoph等人发表了Neural architecture search with reinforcement learning一文，文中提出了控制器-子网络的框架，其中子网络即我们要应用在目标任务上的网络，控制器则负责生成子网络的结构。对于图像类任务，子网络采用CNN，搜索其每层的运算操作和连接方式；对于文本类任务，子网络采用RNN时，搜索其每层的激活函数和连接方式。控制器搜索出的子网络结构在目标任务的数据验证集上的性能则作为reward反馈给控制器，通过强化学习进行训练，使得控制器经过不断的学习迭代生成更好的子网络结构。但是这一工作使用了大量GPU资源，耗费了一个月时间才得到了最后的结果。

随后，有一系列的工作对NAS做出了改进：改进搜索空间（搜索单一block里的结构，之后堆叠多个block作为最终网络）、改进搜索算法（使用演化算法、梯度优化等）、提升搜索效率（通过参数共享等）等。这些工作提升了NAS本身的搜索效率和性能，同时搜索出的CNN网络也在主要的数据集（CIFAR10、CIFAR100、IMAGENET）上取得了SOTA，超过了人工设计的网络的性能。微软亚洲研究院机器学习组发表在NIPS 2018上的工作Neural Architecture Optimization [1]，利用网络结构在验证集上的性能对网络的梯度信息来优化网络结构。首先将离散的网络结构用编码器转换成连续空间里的向量，然后训练了一个预测器来预测该向量（网络结构）在验证集上的性能，从而可以直接基于预测结果对该向量的梯度进行优化，生成更好的向量（网络结构），最后再通过解码器解码将生成的向量解码成离散的网络结构。我们的算法搜索出的CNN和RNN结构在相应任务（CIFAR10、CIFAR100、PTB、Wikitext-2）上皆取得了超过其它NAS工作的最好性能。

元学习Meta Learning

我们期待的通用人工智能的目标是让人工智能像人一样学会推理、思考，能快速学习。对于现实世界的很多问题，人类之所以能够快速学习是因为人类具有强大的思考推理能力以及学习能力。人类能够利用以往学习到的知识经验来指导新知识的学习，做到“触类旁通”、“举一反三”，这让人类的学习行为变得十分高效。

元学习（Meta Learning）的目的就是研究如何让机器学习系统拥有学习的能力，能够更好、更高效地学习，从而取得更好的学习效果。比如对于数据集，采取什么方式、什么顺序、什么策略进行学习，对于学习效果如何进行评测，这些都会影响到模型学习的效果。

微软亚洲研究院机器学习组今年发表在NIPS 2018上的工作Learning to Teach with Dynamic Loss Functions [2]使用一个teacher model来指导student model（学习具体任务的模型）学习，让student model在学习过程中动态利用学习到的不同的损失函数（loss function）来处理不同数据的学习，学习到的模型在相应任务上取到了很好的结果。

参考文献

[1] Renqian Luo, Fei Tian, Tao Qin, Tie-Yan Liu, Neural Architecture Optimization, NIPS 2018

[2] Lijun Wu, Fei Tian, Yingce Xia, Tao Qin, Tie-Yan Liu, Learning to Teach with Dynamic Loss Functions, NIPS 2018

微软研究院AI头条

专注科研19年，盛产黑科技

入门胶囊网络元学习AutoML机器学习

相关技术

链式法则深度残差网络 Infographic 降采样

刘铁岩人物

刘铁岩博士毕业于清华大学电子工程系。现任微软亚洲研究院主任研究员，互联网经济与计算广告学研究组负责人。他是美国计算机学会(ACM)、国际电子电气工程师学会(IEEE)、和中国计算机学会（CCF）的高级会员。中国科技大学和南开大学的客座教授。

来源：Tie-Yan Liu 百度百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

元学习技术

元学习是机器学习的一个子领域，是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是，我们如果想使智能体掌握多种技能、适应多种环境，则不应该从头开始在每一个环境中训练每一项技能，而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务，因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法，又叫元学习（meta-learning），是通往可持续学习多项新任务的多面智能体的必经之路。

来源：机器之心

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

Alex网络技术

AlexNet是一个卷积神经网络的名字，最初是与CUDA一起使用GPU支持运行的，AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%，比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的，由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

来源：ImageNet Classification with Deep Convolutional Neural Networks

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

特征选择技术

在机器学习和统计学中，特征选择（英语：feature selection）也被称为变量选择、属性选择或变量子集选择。它是指：为了构建模型而选择相关特征（即属性、指标）子集的过程。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259