信息增益 | 机器之心

简介

定义及描述

信息增益是在信息论中的概念，为解释其概念，首先定义信息熵的概念，信息熵反应的是任何一种能量在空间中分布的均匀程度，分布越均匀，信息熵的值就越大。信息增益的另一种说法是互信息。信息增益的方程表示如下：$Ex$表示的是所有的训练数据，value(x,a)定义的是在性质a条件下的样例x，$H$用于表示熵，values(a)表示的是对于性质a的所有值。

描述来源：Wikipedia： URL：https://en.wikipedia.org/wiki/Entropy_(information_theory)；

https://en.wikipedia.org/wiki/Information_gain_ratio

信息增益具有广泛的应用，例如，它可以用在决策树的特征选择中。此外，还可以应用在文本分类领域，举一个例子：假设文本集合服从某种分布，计算某个词的信息增益，即系统的信息熵与文本中特征词的条件熵之间的差值，信息增益值越大则该特征词携带的分类信息越多，在分类过程中越重要，反之则该特征词携带的信息量较小，不那么重要。

发展历史

描述

1986年，Quinlan提出了基于信息增益的ID3算法，用来构造决策树，被广泛应用。随后，作者又提出了基于信息增益率的C4.5算法。1995年，Donoho将信息增益作为选择标准，进行特征选择，并获得了很好的效果。随后，相关学者开始应用信息增益于不同的领域，并获得了很好的效果。

主要事件

年份	事件	相关论文/Reference
1986	提出基于信息增益的ID3算法	Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.
1993	提出了基于信息增益率的C4.5算法	Quinlan, R. J. (1993). C4. 5: Programs for Machine Learning.
1995	信息增益在特征选择算法中，并获得很好的效果	Donoho, D. L. (1995). De-noising by soft-thresholding. IEEE Press.
2005	通过将机器人动作的代价与信息增益相结合，来对机器人的动作进行评估，位置进行探索	Stachniss, C., Grisetti, G., & Burgard, W. (2005, June). Information gain-based exploration using rao-blackwellized particle filters. In Robotics: Science and Systems (Vol. 2, pp. 65-72).
2006	将信息增益在应用于特征提取，并对模型的复杂度进行控制	Lee, C., & Lee, G. G. (2006). Information gain and divergence-based feature selection for machine learning-based text categorization. Information processing & management, 42(1), 155-165.
2012	使用信息增益作为分类点选取的依据	Criminisi, Antonio, Shotton, Jamie, and Konukoglu, Ender. Decision forests: A uniﬁed framework for classiﬁcation, regression, density estimation, manifold learning and semi-supervised learning. Foundations and Trends in Computer Graphics and Vision, 7(2-3):81–227, 2012.

发展分析

瓶颈

基于信息增益的特征选择算法的不足之处在于：只考虑了特征与类别之间的相关性，忽略了特征项在类间、类内分布的均匀程度。此外，信息增益通常只考虑特征对整个系统的影响，不考虑到某个具体的类比上。即只能对所有类别都包含的相同特征进行特征选择，无法对某些类别独有的特征进行特征识别。

Contributor: Yilin Pan

简介