树增强朴素贝叶斯网络 | 机器之心

简介

贝叶斯网络(Bayesian network)，又称信念网络(Belief Network)，或有向无环图模(directed acyclic graphical model)，是一种概率图模型。贝叶斯网络中的有向无环图的节点表示随机变量，父节点表示条件，子节点表示结果。两个节点间的箭头连接对应一个概率值。而朴素贝叶斯网络模型作为贝叶斯网络的一个特殊表示，认为子节点对应的属性都是相互独立的，其网络图如下所示，其中A1，A2等表示C的各个属性：

[描述来源：Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers[J]. Machine learning, 1997, 29(2-3): 131-163.]

树增强朴素贝叶斯网络作为朴素贝叶斯网络的改进模型，假设属性对应的各个节点之间不一定相互独立的。图中的虚线表示的是朴素贝叶斯分类器，实线表示的是相关属性之间的关联。

[图片来源：Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers[J]. Machine learning, 1997, 29(2-3): 131-163.]

树增强朴素贝叶斯网络中，在Z已知的情况下，Y可以提供给X的信息（如上图中的C提供给Age的信息），这里用互信息表示，如下所示：

相比较于朴素贝叶斯而言，TAN保持了计算的复杂度和鲁棒性，但是有更好的准确率。可应用于医疗诊断等。[描述来源：Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers[J]. Machine learning, 1997, 29(2-3): 131-163.]

发展历史

描述

1985年Judea Pearl提出了贝叶斯网络，收到了广泛的关注，随后，1992年，D Geiger提出了树增强朴素贝叶斯网络的概念，但没有进行实验验证。1996，1997两年间，Nir Friedman通过实验验证了树增强朴素贝叶斯网络，作为贝叶斯网络的改进算法，在保持运算复杂度的条件下，提高了识别结果。通过与C4.5算法,朴素贝叶斯，选择性朴素贝叶斯进行对比，证明了算法的优越性。

主要事件

年份	事件	相关论文/Reference
1985	Judea Pearl提出了贝叶斯网络	Pearl J. Fusion, propagation, and structuring in belief networks[J]. Artificial intelligence, 1986, 29(3): 241-288.
1992	提出了树增强朴素贝叶斯网络的概念	Geiger D. An entropy-based learning algorithm of Bayesian conditional trees[M]//Uncertainty in Artificial Intelligence, 1992. 1992: 92-97.
1996-1997	通过实验检验树增强朴素贝叶斯网络与C4.5,朴素贝叶斯，选择性朴素贝叶斯的差异性，证明了树增强朴素贝叶斯网络优越的效果。	Friedman N, Goldszmidt M. Building classifiers using Bayesian networks[C]//Proceedings of the national conference on artificial intelligence. 1996: 1277-1284.；Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers[J]. Machine learning, 1997, 29(2-3): 131-163.
2004-2005	将树增强朴素贝叶斯网络与其他算法结合应用到不同的领域中，获得了优越的效果。	Chinnasamy, Arunkumar, Wing-Kin Sung, and Ankush Mittal. "Protein structure and fold prediction using tree-augmented naive Bayesian classifier." Journal of Bioinformatics and Computational Biology 3.04 (2005): 803-819.；Baesens B, Verstraeten G, Van den Poel D, et al. Bayesian network classifiers for identifying the slope of the customer lifecycle of long-life customers[J]. European Journal of Operational Research, 2004, 156(2): 508-523.

发展分析

瓶颈

构建树增强朴素贝叶斯网络数据一个NP难问题，网络会随着属性的增加而变得复杂，不仅学习过程会变得复杂，分类效果也会下降。如何对算法进行优化以减小学习过程的复杂度算法是未来需要考虑的问题之一。
此外，由于每一个属性，我们都要评估给定类变量和另一个属性的条件概率。在面对小数据集时，会获得一些不可靠的估计。

未来发展方向

针对小数据集估计不准确的问题，现阶段有算法考虑使用基于贝叶斯估计的平滑来处理，这为以后的发展提供了思路。

针对具有大量属性的复杂问题时，一些算法（如AUC-Superparent）被提出，用于提高Superparent的分类效果。

Contributor: Yilin Pan

简介