
1 信息熵
1.1 信息熵
香农认为, 信息是不确定性的减少. 为了衡量不确定性, 引入信息熵. 假定随机变量 𝑋 服从某个概率分布,
记 𝐻 (𝑋) 为其信息熵, 即为了确定 𝑋 的取值所需信息量. 希望满足以下性质
• 如果 𝑋 只有一个可能取值, 则 𝐻 (𝑋) = 0, 因为不需要任何信息就能确定 𝑋 的取值
• 如果 𝑋 的分布可以分为多个条件分布, 则 𝐻(𝑋) 等于条件的不确定度加上各条件分布的信息熵按概
率加权平均
基于此性质, 可以先给出等概率分布下的信息熵. 记有 𝑛 个等概率取值的随机变量 𝑋 其信息熵为 𝐻 (𝑛),
那么按照第二个性质, 为了确定具有 𝑚𝑛 个等概率取值的随机变量, 可以引入一个中间变量 𝑌, 它是一个
具有 𝑚 个等概率取值的随机变量
• 条件 𝑌 = 1: 𝑋 在前 𝑛 个取值中, 概率为 1/𝑚
• 条件 𝑌 = 2: 𝑋 在后 𝑛 个取值中, 概率为 1/𝑚
• · · ·
• 条件 𝑌 = 𝑚: 𝑋 在最后 𝑛 个取值中, 概率为 1/𝑚
那么 𝑋 的信息熵就是 𝑌 的信息熵加上各条件下 𝑋 的信息熵按概率加权平均. 在 𝑌 的每个取值下, 𝑋 都
是一个具有 𝑛 个等概率取值的随机变量, 其信息熵为 𝐻 (𝑛). 因此有
𝐻(𝑚𝑛) = 𝐻 (𝑚) +
𝑚
∑
𝑖=1
1
𝑚
𝐻(𝑛) = 𝐻(𝑚) + 𝐻(𝑛)
这说明此时的信息熵是对数函数
𝐻(𝑛) = 𝑘 log 𝑛
其中 𝑘 是一个常数, 简单起见取 𝑘 = 1. 进而可以将其推广到有理数情形. 设随机变量 𝑋 有 𝑛 个取值, 对
应概率为 {𝑝
𝑖
}, 那么可以取一个相当大的整数 𝑁, 使得 𝑁 𝑝
𝑖
都是整数. 引入一个新的随机变量 𝑌 , 它有 𝑁
个等概率取值, 满足
• 条件 𝑋 = 1: 𝑌 在前 𝑁 𝑝
1
个取值中, 概率为 𝑝
1
• 条件 𝑋 = 2: 𝑌 在后 𝑁 𝑝
2
个取值中, 概率为 𝑝
2
• · · ·
• 条件 𝑋 = 𝑛: 𝑌 在最后 𝑁 𝑝
𝑛
个取值中, 概率为 𝑝
𝑛