判别模型

在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。 判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率P(y|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑x与y之间的联合分布。 在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine), 提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。

来源:Wikipedia
简介

在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。

判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率Py|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑xy之间的联合分布。

在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine),提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。

[描述来源:维基百科URLhttps://en.wikipedia.org/wiki/Discriminative_model]

下面通过一个例子具体阐述:

假设训练数据集为:(x,y)={(1,0),(1,0,),(2,0),(2,1)}

若考虑xy的联合分布,则其应为:

A

B

C

1

y=0

y=1

2

x=1

0.5

0

3

x=2

0.25

0.25

而考虑其条件概率分布py|x)则为:

A

B

C

1

y=0

y=1

2

x=1

1

0

3

x=2

0.5

0.5

因此,判别模型试图直接从数据中学习py | x),然后尝试对数据进行分类。另一方面,生成模型试图学习pxy),后者可以稍后转换为py | x数据。值得注意的是,大部分判别模型本身是监督学习模型,不易扩展用于非监督学习过程。

[描述来源:维基百科URLhttps://en.wikipedia.org/wiki/Generative_model]

发展历史

描述

关于判别模型和生成模型的表现一直以来都受到了广泛关注,Andrew Ng Michael Jordan2001年发表了一篇被大量引用的论文,在文中对两种模型进行了比较,他们认为判别模型有比生成模型更低的渐进误差(asymptote error),但生成模型能够比判别模型更快达到渐进误差。由于两类模型各有所长,1999JaakkolaHaussler试图将生成模型能够处理缺失/不规则数据的优点与判别模型能够建立更灵活的决策边界并且在分类问题中表现更好的优点结合起来,从生成概率模型推导能够在判别模型中使用的核方程(kernel function)。2007BishopLasserre针对大部分判别模型不易扩展用于非监督学习过程的缺点探讨了将生成模型和判别模型结合起来的方法,并认为当标记好的训练数据有限时,这种方法的最佳表现介于纯判别模型和纯生成模型之间。

纯判别模型的应用也非常多,特别是在深度学习极度流行的今天,神经网络作为判别模型的子类得到了广泛的使用,在自然语言处理(Mikolov et al.)、图像识别(Krizhevsky,Sutskever,Hinton)、图像生成等领域都能看到判别模型的实际应用。

主要事件

A

B

C

1

年份

事件

相关论文/Reference

2

1999

JaakkolaHaussler从生成概率模型推导能够在判别模型中使用的核方程(kernel function

Jaakkola T.; HausslerD. (1999). Exploiting generative models in discriminative classifiers. Advances in neural information processing. pp 487-493.

3

2002

Andrew Ng Michael Jordan在论文中对判别模型和生成模型进行了比较

Ng A. Y.; Jordan M. I. (2002).On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. NIPS.

4

2007

BishopLasserre针对大部分判别模型不易扩展用于非监督学习过程的缺点探讨了将生成模型和判别模型结合起来的方法

Bishop, C. M.; Lasserre, J. (2007). Generative or Discriminative? getting the best of both worlds. Bayesian statistics 8:proceedings of the eighth Valencia International Meeting.Oxford University Press. pp. 3–23.

5

2010

Mikolov等人提出了RNN LM模型,用于语音识别

Mikolov T.;Karafiát M.; Burget L.; Černocký J.; Khudanpur S. (2010).Recurrent Neural Network Based Language Model.INTERSPEECH-2010, 1045-1048.

6

2012

Krizhevsky等人提出了Alexnet用于图像识别

Krizhevsky A.; Sutskever I.; Hinton G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 (NIPS 2012).

发展分析

瓶颈

大部分判别模型本身是监督学习模型,不易扩展用于非监督学习过程,但在数据量越来越大的今天,能够无监督学习的模型越来越受欢迎。

未来发展方向

通过结合生成模型的优点或别的方法使判别模型对训练数据的要求更宽松。

相关人物
伊利亚·苏特斯威夫
伊利亚·苏特斯威夫
Ilya Sutskever是一名研究机器学习的计算机科学家,目前担任OpenAI的研究总监。Sutskever在多伦多大学获得了计算机科学学士、硕士和博士学位,导师是Geoffrey Hinton。博士毕业后进入斯坦福大学,成为吴恩达的博士后。后担任DNNresearch的联合创始人。2013年,Ilya Sutskever 与Hinton一起加入谷歌大脑团队。他后来离开谷歌,成为新成立的OpenAI研究院的研究总监。
迈克尔·乔丹
迈克尔·乔丹
著名计算机科学家和统计学学者,主要研究机器学习和人工智能。目前担任加州大学伯克利分校电气工程与计算机科学系和统计学系教授。他的重要贡献包括指出了机器学习与统计学之间的联系,并推动机器学习界广泛认识到贝叶斯网络的重要性。他还以近似推断变分方法的形式化、最大期望算法在机器学习的普及方面的工作而知名。
托马斯米科洛夫
托马斯米科洛夫
Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM、Word2Vec再到最近流行的FastText都与他息息相关。一个人对同一个问题的研究可能会持续很多年,而每一年的研究成果都可能会给同行带来新的启发。
汤米·雅科拉
汤米·雅科拉
麻省理工学院电气工程与计算机科学系和数据、系统与社会研究所的Thomas Siebel教授,MIT计算机科学与人工智能实验室成员。研究重点:统计推断和估计、各种现代估计问题的算法分析与设计。应用方面,其工作主要涉及自然语言处理、计算生物学、推荐系统、信息检索。
杰弗里·辛顿
杰弗里·辛顿
杰弗里·埃弗里斯特·辛顿 FRS(英语:Geoffrey Everest Hinton)(1947年12月6日-)是一位英国出生的加拿大计算机学家和心理学家,以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者。
吕卡斯·布杰特
吕卡斯·布杰特
IEEE、ISCA Fellow,布尔诺理工大学信息工程学院计算机图形和多媒体系助理教授。研究兴趣:语音处理,即语音识别的声学建模,包括其软件实现。
Alex Krizhevsky
Alex Krizhevsky
吴恩达
吴恩达
斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。
戴维·豪斯勒
戴维·豪斯勒
美国生物信息学家,其领导的团队汇编出第一个人类基因组序列,随后进行了比较基因组分析,从而加深了对基因组的分子功能和进化的理解。
简介
相关人物