信息增益

在决策树学习中,信息增益比是信息增益与固有信息的比率。 它被用来通过在选择属性时考虑分支的数量和大小来减少对多值属性的偏见.

来源:Wikipedia
简介

定义及描述 

信息增益是在信息论中的概念,为解释其概念,首先定义信息熵的概念,信息熵反应的是任何一种能量在空间中分布的均匀程度,分布越均匀,信息熵的值就越大。信息增益的另一种说法是互信息。信息增益的方程表示如下:$Ex$表示的是所有的训练数据,value(x,a)定义的是在性质a条件下的样例x,$H$用于表示熵,values(a)表示的是对于性质a的所有值。

描述来源:Wikipedia: URL:https://en.wikipedia.org/wiki/Entropy_(information_theory)

https://en.wikipedia.org/wiki/Information_gain_ratio

信息增益具有广泛的应用,例如,它可以用在决策树的特征选择中。此外,还可以应用在文本分类领域,举一个例子:假设文本集合服从某种分布,计算某个词的信息增益,即系统的信息熵与文本中特征词的条件熵之间的差值,信息增益值越大则该特征词携带的分类信息越多,在分类过程中越重要,反之则该特征词携带的信息量较小,不那么重要。

发展历史

描述 

1986年,Quinlan提出了基于信息增益的ID3算法,用来构造决策树,被广泛应用。随后,作者又提出了基于信息增益率的C4.5算法。1995年,Donoho将信息增益作为选择标准,进行特征选择,并获得了很好的效果。随后,相关学者开始应用信息增益于不同的领域,并获得了很好的效果。

主要事件 

年份事件相关论文/Reference
1986提出基于信息增益的ID3算法Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.
1993提出了基于信息增益率的C4.5算法Quinlan, R. J. (1993). C4. 5: Programs for Machine Learning.
1995信息增益在特征选择算法中,并获得很好的效果Donoho, D. L. (1995). De-noising by soft-thresholding. IEEE Press.
2005通过将机器人动作的代价与信息增益相结合,来对机器人的动作进行评估,位置进行探索Stachniss, C., Grisetti, G., & Burgard, W. (2005, June). Information gain-based exploration using rao-blackwellized particle filters. In Robotics: Science and Systems (Vol. 2, pp. 65-72).
2006将信息增益在应用于特征提取,并对模型的复杂度进行控制Lee, C., & Lee, G. G. (2006). Information gain and divergence-based feature selection for machine learning-based text categorization. Information processing & management, 42(1), 155-165.
2012使用信息增益作为分类点选取的依据Criminisi, Antonio, Shotton, Jamie, and Konukoglu, Ender. Decision forests: A unified framework for classification, regression, density estimation, manifold learning and semi-supervised learning. Foundations and Trends in Computer Graphics and Vision, 7(2-3):81–227, 2012.

发展分析

瓶颈 

基于信息增益的特征选择算法的不足之处在于:只考虑了特征与类别之间的相关性,忽略了特征项在类间、类内分布的均匀程度。此外,信息增益通常只考虑特征对整个系统的影响,不考虑到某个具体的类比上。即只能对所有类别都包含的相同特征进行特征选择,无法对某些类别独有的特征进行特征识别。

Contributor: Yilin Pan

相关人物
沃尔弗拉姆·比加尔
沃尔弗拉姆·比加尔
德国机器人专家,弗莱堡大学教授,负责自主智能系统实验室。他以同步定位及对机器人技术的贡献而闻名。
李根培(音)
李根培(音)
韩国浦项科技大学计算机科学与工程系教授。智能软件(ISoft)实验室主任,该实验室专注于自然语言技术研究,包括口语对话处理、计算机辅助语言学习、语音合成和网页/文本挖掘。他是DiQuest联合创始人,并担任该公司CTO(DiQuest是韩国主要搜索引擎企业之一),他还担任韩国电信、三星和其他公司的技术顾问。
大卫·多诺霍
大卫·多诺霍
大卫·多诺霍 (David L Donoho)1957年于美国洛杉矶出生,现为美国史丹福大学 Anne T and Robert M Bass 人文科学讲座教授及统计学教授。1978年于普林斯顿大学毕业,1983年于哈佛大学取得博士学位。自1984年至1990年于加州大学柏克莱分校任教,其后转往史丹福大学。他是美国人文与科学学院院士、美国工业与应用数学学会(SIAM) 院士、法国科学院外籍院士及美国国家科学院院士。
简介
相关人物