监督学习 | 机器之心

简介

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

一个监督式学习者的任务是在观察完一些训练范例（输入对象和预期输出）后，去预测这个函数对任何可能出现的输入的值的输出。要达到此目的，学习者必须以"合理"的方式从现有的训练集中一般化到新出现范例的情况。在人类和动物感知中，则通常被称为概念学习（concept learning）。

监督式学习有两种形态的模型。最一般的，监督式学习产生一个全域模型，会将输入对象对应到预期输出。而另一种，则是将这种对应实作在一个区域模型。为了解决一个给定的监督式学习的问题，必须考虑以下步骤：

决定训练集的类型。在做其它事前，工程师应决定要使用哪种数据作为训练集。譬如，可能是一个手写字符，或一整个手写的辞汇，或一行手写文字。
搜集训练集。训练集要具有真实世界的特征。所以，可以由人类专家或（机器或感测器的）测量中得到输入对象和其相对应的输出。
决定学习函数的输入特征的表示法。学习函数的准确度与输入对象如何表示是有很大的关联度。传统上，输入的对象会被转成一个特征向量，包含了许多关于描述该输入对象的特征。因为维数灾难的关系，特征的个数不宜太多，但也要足够大，才能准确的预测输出。
决定要学习的函数和其对应的学习算法所使用的数据结构。譬如，工程师可能选择人工神经网络和决策树。
完成设计。工程师接着在搜集到的训练集上跑学习算法。有的监督式学习算法需要工程师决定某些控制参数。这些参数可以通过验证集或交叉验证（cross-validation）来进行调整和优化。参数调整后，算法可以运行在不同于训练集的测试集上.

在监督式学习中，主要需要考虑以下四个问题：

偏差-方差的权衡，即解决欠拟合和过拟合问题；
函数的复杂度以及训练集大小
输入空间维度
输出数值中的噪声问题

[描述来源：wikipedia；URL：https://en.wikipedia.org/wiki/Supervised_learning#Applications]

发展历史

描述

监督式学习算法多种多样，每种算法各有其优势和弱点。并没有某一种算法可以解决所有的监督式学习问题，这被称为‘天下没有免费的午餐’理论。目前被广泛使用的监督式学习算法有人工神经网络、线性回归、逻辑回归、线性识别分析、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类等。

监督式学习目前主要在这些方面获得广泛应用：生物信息学，化学信息学（如定量构效关系），数据库营销，手写识别，信息检索，信息提取，计算机视觉，光学字符识别，垃圾邮件检测，模式识别，语音识别等。

主要事件

年份	事件	相关论文/Reference
1986	决策树方法的提出	Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.
1990	神经网络技术（CNN）开始被用于手写识别	LeCun, Y., Boser, B. E., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. E., & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems (pp. 396-404).
1992	最近邻居法用于回归的非参数统计	Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185.
1993	引入一种缩放共轭梯度的监督式学习算法	Møller, M. F. (1993). A scaled conjugate gradient algorithm for fast supervised learning. Neural networks, 6(4), 525-533.
1995	支持向量机作为一种监督式学习模型完成分类任务	Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.
2006	Caruana和Niculescu-Mizil对监督式学习的多种算法进行了比较	Caruana, R., & Niculescu-Mizil, A. (2006, June). An empirical comparison of supervised learning algorithms. In Proceedings of the 23rd international conference on Machine learning (pp. 161-168). ACM.
2012	采用监督式学习方式，AlexNet展现了神经网络技术在图像识别领域的特长	Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).

发展分析

瓶颈

监督式学习需要采用有标签的数据来进行训练。这对数据的获取和标注提出要求，如果数据不充足，将会导致过拟合问题。

神经网络监督学习方法的瓶颈：

需要大量的参数，可解释性差，学习时间长。

其他几种常见浅层监督学习方法的瓶颈：

朴素贝叶斯方法对输入数据的表达形式敏感，输入变量必须为条件独立；
逻辑回归不适用于大特征空间，容易发生欠拟合；
线性回归不能拟合非线性数据；
最近邻算法计算量大，存在样本不平衡问题；
决策树忽略了数据之间的相关性，容易发生过拟合，遇到新样本后需要全部重建。
提升方法的每个决策模型必须独立，对outlier比较敏感
支持向量机内存消耗大，在噪声过多的情况下容易造成过拟合，对缺失数据敏感。

未来发展方向

随着大数据库的建立，各种先进模型的提出（比如ReLU激活函数，dropout等等）以及计算机硬件的发展（GPU、AI芯片），监督式学习在多个应用场景中能够发挥更为重要的作用。

Contributor: Yueqin Li

简介