什么叫做熵?

来源:百度知道 编辑:UC知道 时间:2024/05/24 22:35:36
在经济、管理学中的应用?

数据压缩不仅起源于 40 年代由 Claude Shannon 首创的信息论,而且其基本原理即信息究竟能被压缩到多小,至今依然遵循信息论中的一条定理,这条定理借用了热力学中的名词“熵”( Entropy )来表示一条信息中真正需要编码的信息量:
考虑用 0 和 1 组成的二进制数码为含有 n 个符号的某条信息编码,假设符号 Fn 在整条信息中重复出现的概率为 Pn,则该符号的熵也即表示该符号所需的位数位为:

En = - log2( Pn )

整条信息的熵也即表示整条信息所需的位数为:E = ∑En

举个例子,对下面这条只出现了 a b c 三个字符的字符串:

aabbaccbaa

字符串长度为 10,字符 a b c 分别出现了 5 3 2 次,则 a b c 在信息中出现的概率分别为 0.5 0.3 0.2,他们的熵分别为:

Ea = -log2(0.5) = 1

Eb = -log2(0.3) = 1.737

Ec = -log2(0.2) = 2.322

整条信息的熵也即表达整个字符串需要的位数为:

E = Ea * 5 + Eb * 3 + Ec * 2 = 14.855 位

回想一下如果用计算机中常用的 ASCII 编码,表示上面的字符串我们需要整整 80 位呢!现在知道信息为什么能被压缩而不丢失原有的信息内容了吧。简单地讲,用较少的位数表示较频繁出现的符号,这就是数据压缩的基本准则。

信息熵
information entropy

信息量的测度。根据人们的实践经验,一个事件给予人们的信息量多少,与这一事件发生的概率(可能性)大小有关。一个小概率事件的发生,给予人们的信息量就很多。相反,一个大概率事件的出现,给人们的信息量就很少。因此,用I(A)=-logp(A)〔p(A)表示事件A发生的概率〕来度量事件A给出的信息量,称为事件A的自信息量。若一次试验有m个可能结果(事件),或一个信源可能产生m个消息(事件),它们出现的概率分别为p1,p2,……,pm