监督学习

Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

来源:Wikipedia
简介

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

一个监督式学习者的任务是在观察完一些训练范例(输入对象和预期输出)后,去预测这个函数对任何可能出现的输入的值的输出。要达到此目的,学习者必须以"合理"的方式从现有的训练集中一般化到新出现范例的情况。在人类和动物感知中,则通常被称为概念学习(concept learning)。

监督式学习有两种形态的模型。最一般的,监督式学习产生一个全域模型,会将输入对象对应到预期输出。而另一种,则是将这种对应实作在一个区域模型。为了解决一个给定的监督式学习的问题,必须考虑以下步骤:

  1. 决定训练集的类型。在做其它事前,工程师应决定要使用哪种数据作为训练集。譬如,可能是一个手写字符,或一整个手写的辞汇,或一行手写文字。
  2. 搜集训练集。训练集要具有真实世界的特征。所以,可以由人类专家或(机器或感测器的)测量中得到输入对象和其相对应的输出。
  3. 决定学习函数的输入特征的表示法。学习函数的准确度与输入对象如何表示是有很大的关联度。传统上,输入的对象会被转成一个特征向量,包含了许多关于描述该输入对象的特征。因为维数灾难的关系,特征的个数不宜太多,但也要足够大,才能准确的预测输出。
  4. 决定要学习的函数和其对应的学习算法所使用的数据结构。譬如,工程师可能选择人工神经网络和决策树。
  5. 完成设计。工程师接着在搜集到的训练集上跑学习算法。有的监督式学习算法需要工程师决定某些控制参数。这些参数可以通过验证集或交叉验证(cross-validation)来进行调整和优化。参数调整后,算法可以运行在不同于训练集的测试集上.

在监督式学习中,主要需要考虑以下四个问题:

  1. 偏差-方差的权衡,即解决欠拟合和过拟合问题;
  2. 函数的复杂度以及训练集大小
  3. 输入空间维度
  4. 输出数值中的噪声问题

[描述来源:wikipedia;URL:https://en.wikipedia.org/wiki/Supervised_learning#Applications]

发展历史

描述

监督式学习算法多种多样,每种算法各有其优势和弱点。并没有某一种算法可以解决所有的监督式学习问题,这被称为‘天下没有免费的午餐’理论。目前被广泛使用的监督式学习算法有人工神经网络、线性回归、逻辑回归、线性识别分析、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类等。

监督式学习目前主要在这些方面获得广泛应用:生物信息学,化学信息学(如定量构效关系),数据库营销,手写识别,信息检索,信息提取,计算机视觉,光学字符识别,垃圾邮件检测,模式识别,语音识别等。

主要事件

年份事件相关论文/Reference
1986决策树方法的提出Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.
1990神经网络技术(CNN)开始被用于手写识别LeCun, Y., Boser, B. E., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. E., & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems (pp. 396-404).
1992最近邻居法用于回归的非参数统计Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185.
1993引入一种缩放共轭梯度的监督式学习算法Møller, M. F. (1993). A scaled conjugate gradient algorithm for fast supervised learning. Neural networks, 6(4), 525-533.
1995支持向量机作为一种监督式学习模型完成分类任务Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.
2006Caruana和Niculescu-Mizil对监督式学习的多种算法进行了比较Caruana, R., & Niculescu-Mizil, A. (2006, June). An empirical comparison of supervised learning algorithms. In Proceedings of the 23rd international conference on Machine learning (pp. 161-168). ACM.
2012采用监督式学习方式,AlexNet展现了神经网络技术在图像识别领域的特长Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In *Advances in neural information processing systems* (pp. 1097-1105).

发展分析

瓶颈

监督式学习需要采用有标签的数据来进行训练。这对数据的获取和标注提出要求,如果数据不充足,将会导致过拟合问题。

神经网络监督学习方法的瓶颈:

需要大量的参数,可解释性差,学习时间长。

其他几种常见浅层监督学习方法的瓶颈:

  • 朴素贝叶斯方法对输入数据的表达形式敏感,输入变量必须为条件独立;
  • 逻辑回归不适用于大特征空间,容易发生欠拟合;
  • 线性回归不能拟合非线性数据;
  • 最近邻算法计算量大,存在样本不平衡问题;
  • 决策树忽略了数据之间的相关性,容易发生过拟合,遇到新样本后需要全部重建。
  • 提升方法的每个决策模型必须独立,对outlier比较敏感
  • 支持向量机内存消耗大,在噪声过多的情况下容易造成过拟合,对缺失数据敏感。

未来发展方向

随着大数据库的建立,各种先进模型的提出(比如ReLU激活函数,dropout等等)以及计算机硬件的发展(GPU、AI芯片),监督式学习在多个应用场景中能够发挥更为重要的作用。

Contributor: Yueqin Li

相关机构
  • UofT - Machine Learning
  • MILA(University of Montreal - Montreal Institute for Learning Algorithms)
相关人物
杰弗里·辛顿
杰弗里·辛顿
杰弗里·埃弗里斯特·辛顿 FRS(英语:Geoffrey Everest Hinton)(1947年12月6日-)是一位英国出生的加拿大计算机学家和心理学家,以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者。
杨立昆
杨立昆
杨立坤(法语:Yann Le Cun,英语:Yann LeCun,1960年7月8日-)是一位计算机科学家,他在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献。他最著名的工作是在光学字符识别和计算机视觉上使用卷积神经网络 (CNN),他也被称为卷积网络之父。他同Léon Bottou和Patrick Haffner等人一起创建了DjVu图像压缩技术。他同Léon Bottou一起开发了Lush语言。
Alexandru Niculescu-Mizil
Alexandru Niculescu-Mizil
简介
相关机构
相关人物