信息熵 | 机器之心

简介

在信息论中，熵是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里，“消息”代表来自分布或数据流中的事件、样本或特征。熵的单位通常为比特，但也用Sh、nat、Hart计量，取决于定义用到对数的底。

依据Boltzmann's H-theorem，香农把随机变量X的熵值 Η（希腊字母Eta）定义如下，其值域为{x_1, ..., x_n}：

其中，P为X的概率质量函数（probability mass function），E为期望函数，而I(X)是X的信息量（又称为自信息）。I(X)本身是个随机变数。

当取自有限的样本时，熵的公式可以表示为：

在这里b是对数所使用的底，通常是2,自然常数e，或是10。当b = 2，熵的单位是bit；当b = e，熵的单位是nat；而当b = 10,熵的单位是Hart。

pi = 0时，对于一些i值，对应的被加数0 logb 0的值将会是0，这与极限一致。

还可以定义事件 X 与 Y 分别取 x_i 和 y_j 时的条件熵为

其中p(x_i, y_j)为 X = x_i 且 Y = y_j 时的概率。这个量应当理解为你知道Y的值前提下随机变量 X 的随机性的量。

例子：

如果有一个系统S内存在多个事件S = {E_1,...,E_n}，每个事件的概率分布P = {p_1, ..., p_n}，则每个事件本身的讯息（自信息）为：

对数以2为底，单位是比特（bit）

对数以e为底，单位是纳特/nats

如英语有26个字母，假如每个字母在文章中出现次数平均的话，每个字母的讯息量为：

熵是整个系统的平均消息量，即：

因为和热力学中描述热力学熵的玻尔兹曼公式本质相同（仅仅单位不同，一纳特的信息量即相当于k焦耳每开尔文的热力学熵），所以也称为“熵”。

[描述来源：Wikipedia； URL：https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)]

发展历史

熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。在1948年，克劳德·艾尔伍德·香农在他的论文"A Mathematical Theory of Communication"中将热力学的熵引入到信息论，因此它又被称为香农熵。作为信息论中的一个重要度量，信息熵可以用于找出信号处理与通信操作的基本限制，如数据压缩、可靠的存储和数据传输等。信息熵和热力学熵最根本的不同是：信息熵是通过一组具有任意概率的事件集合来定义的，而在热力学中，一般假定气体粒子等概率地占据容器的任何区域。因此，信息熵是比热力学熵更广义的一个概念。热力学熵可能不太适合描述基因组学和蛋白质组学的序列以及很多复杂系统的涌现现象，而信息熵是复杂性理论的一个基本组成部分，同时能自然地量化生物学序列中的信息量。

熵的一个最重要应用是，通过最大化熵可以确定与科学和工程中众多现象相联系的原始分布。在讨论时，把基于离散概率的信息熵推广到基于概率密度函数的信息熵，得到微分熵的形式。

由于信息论作为人工智能的一个重要数学理论基础，信息熵的概念也被相应地推广应用，如衡量模型预测结果与实际结果的差距等。

主要事件

年份	事件	相关论文
1948	克劳德·艾尔伍德·香农提出信息熵	Shannon, C. E. (1948), A Mathematical Theory of Communication. Bell System Technical Journal, 27: 379–423.
1957	将原始信息熵定义扩展到离散变量中得到微分熵（differential entropy）	Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical review, 106(4), 620.
1951	相对熵（relative entropy），又称为KL散度（Kullback–Leibler divergence，简称KLD）被提出	Kullback, S., & Leibler, R. A. (1951). On Information and Sufficiency. The Annals of Mathematical Statistics, 22(1), 79-86.
1991	条件熵（cross entropy）被提出	Thomas, M. (1991). COVER AND JOY A. THOMAS: Elements of Information Theory. Wiley, 4, 10.
2006	在神经网络模型中采用交叉熵（cross entropy）计算误差	Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. science, 313(5786), 504-507.

发展分析

瓶颈

信息熵在定义上假设事物状态是可以用一个以经典集合论为基础的概率模型来描述的。然而在实际情况中，有些事物的运动状态很难找到一个合适的概率模型。

未来发展方向

随着信息论的发展，信息熵的应用也将拓展到许多其他领域，包括统计推断、自然语言处理、密码学、神经生物学、进化论和分子编码的功能、生态学的模式选择、热物理、量子计算、语言学、剽窃检测、模式识别、异常检测和其他形式的数据分析。

Contributor: Yueqin Li

简介