监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
一个监督式学习者的任务是在观察完一些训练范例(输入对象和预期输出)后,去预测这个函数对任何可能出现的输入的值的输出。要达到此目的,学习者必须以"合理"的方式从现有的训练集中一般化到新出现范例的情况。在人类和动物感知中,则通常被称为概念学习(concept learning)。
监督式学习有两种形态的模型。最一般的,监督式学习产生一个全域模型,会将输入对象对应到预期输出。而另一种,则是将这种对应实作在一个区域模型。为了解决一个给定的监督式学习的问题,必须考虑以下步骤:
- 决定训练集的类型。在做其它事前,工程师应决定要使用哪种数据作为训练集。譬如,可能是一个手写字符,或一整个手写的辞汇,或一行手写文字。
- 搜集训练集。训练集要具有真实世界的特征。所以,可以由人类专家或(机器或感测器的)测量中得到输入对象和其相对应的输出。
- 决定学习函数的输入特征的表示法。学习函数的准确度与输入对象如何表示是有很大的关联度。传统上,输入的对象会被转成一个特征向量,包含了许多关于描述该输入对象的特征。因为维数灾难的关系,特征的个数不宜太多,但也要足够大,才能准确的预测输出。
- 决定要学习的函数和其对应的学习算法所使用的数据结构。譬如,工程师可能选择人工神经网络和决策树。
- 完成设计。工程师接着在搜集到的训练集上跑学习算法。有的监督式学习算法需要工程师决定某些控制参数。这些参数可以通过验证集或交叉验证(cross-validation)来进行调整和优化。参数调整后,算法可以运行在不同于训练集的测试集上.
在监督式学习中,主要需要考虑以下四个问题:
- 偏差-方差的权衡,即解决欠拟合和过拟合问题;
- 函数的复杂度以及训练集大小
- 输入空间维度
- 输出数值中的噪声问题
[描述来源:wikipedia;URL:https://en.wikipedia.org/wiki/Supervised_learning#Applications]
发展历史
描述
监督式学习算法多种多样,每种算法各有其优势和弱点。并没有某一种算法可以解决所有的监督式学习问题,这被称为‘天下没有免费的午餐’理论。目前被广泛使用的监督式学习算法有人工神经网络、线性回归、逻辑回归、线性识别分析、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类等。
监督式学习目前主要在这些方面获得广泛应用:生物信息学,化学信息学(如定量构效关系),数据库营销,手写识别,信息检索,信息提取,计算机视觉,光学字符识别,垃圾邮件检测,模式识别,语音识别等。
主要事件
年份 | 事件 | 相关论文/Reference |
1986 | 决策树方法的提出 | Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106. |
1990 | 神经网络技术(CNN)开始被用于手写识别 | LeCun, Y., Boser, B. E., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. E., & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems (pp. 396-404). |
1992 | 最近邻居法用于回归的非参数统计 | Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185. |
1993 | 引入一种缩放共轭梯度的监督式学习算法 | Møller, M. F. (1993). A scaled conjugate gradient algorithm for fast supervised learning. Neural networks, 6(4), 525-533. |
1995 | 支持向量机作为一种监督式学习模型完成分类任务 | Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297. |
2006 | Caruana和Niculescu-Mizil对监督式学习的多种算法进行了比较 | Caruana, R., & Niculescu-Mizil, A. (2006, June). An empirical comparison of supervised learning algorithms. In Proceedings of the 23rd international conference on Machine learning (pp. 161-168). ACM. |
2012 | 采用监督式学习方式,AlexNet展现了神经网络技术在图像识别领域的特长 | Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In *Advances in neural information processing systems* (pp. 1097-1105). |
发展分析
瓶颈
监督式学习需要采用有标签的数据来进行训练。这对数据的获取和标注提出要求,如果数据不充足,将会导致过拟合问题。
神经网络监督学习方法的瓶颈:
需要大量的参数,可解释性差,学习时间长。
其他几种常见浅层监督学习方法的瓶颈:
- 朴素贝叶斯方法对输入数据的表达形式敏感,输入变量必须为条件独立;
- 逻辑回归不适用于大特征空间,容易发生欠拟合;
- 线性回归不能拟合非线性数据;
- 最近邻算法计算量大,存在样本不平衡问题;
- 决策树忽略了数据之间的相关性,容易发生过拟合,遇到新样本后需要全部重建。
- 提升方法的每个决策模型必须独立,对outlier比较敏感
- 支持向量机内存消耗大,在噪声过多的情况下容易造成过拟合,对缺失数据敏感。
未来发展方向
随着大数据库的建立,各种先进模型的提出(比如ReLU激活函数,dropout等等)以及计算机硬件的发展(GPU、AI芯片),监督式学习在多个应用场景中能够发挥更为重要的作用。
Contributor: Yueqin Li