信息论 - 基础概念

本文最后更新于：2025年4月14日晚上

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。

信息是用来消除事情的不确定性的，不确定性的减少量等于信息的信息量。
信息论背后的原理是：从不太可能发生的事件中能学到更多的有用信息。
- 发生可能性较大的事件包含较少的信息。
- 发生可能性较小的事件包含较多的信息。
- 独立事件包含额外的信息。

$$
I(x)=-\log P(x)
$$

$$ H(X)=\mathbb{E}_{X \sim P(X)}[I(x)]=-\mathbb{E}_{X \sim P(X)}[\log P(x)] $$

记作 $ H(P) $
熵刻画了按照真实分布 $ P $ 来识别一个样本所需要的编码长度的期望（即平均编码长度）。

如：含有4个字母 $ (A, B, C, D) $ 的样本集中，真实分布 $ P=\left(\frac{1}{2}, \frac{1}{2}, 0,0\right) $, 则只需要1位编码即可识别样本。
对于离散型随机变量 $ X $, 假设其取值集合大小为 $ k $, 则

可以证明: $ 0 \leq H(X) \leq \log k $

证明

已知：

$$
P(X=i)=p_i
$$

$$
H(X)=\sum_{i=1}^{k} P_{i} \log P_{i}
$$

$$
\sum_{i=1}^{k} P_{i}=1
$$

建立拉格朗日方程：

$$
L=\sum_{i=1}^{k} P_{i} \log P_{i}+\lambda \sum_{i=1}^{k} P_{i}
$$

解方程组：
$$ \left\{\begin{array}{l}\frac{\partial L}{\partial P_{i}}=0 \\ \sum_{i=1}^{k} P_{i}=1\end{array}\right. $$
有：
$$
\frac{\partial L}{\partial P_{i}}=\log P_{i}+1+\lambda=0
$$
$$
\log P_{i}=-1-\lambda
$$
$$
P_{i}=2^{-1-\lambda}
$$

由于$P_i$之间两两相等，且和为1

因此有：
$$
P_i=\frac{1}{k}
$$
即当所有可能性的概率相等时熵最大

此时熵：
$$
H(X) = \sum\nolimits_{i = 1}^{i = k} {\frac{1}{k}\log \frac{1}{k} = \log \frac{1}{k}}
$$

对于随机变量 $ Y $ 和 $ X $, 条件熵 $ H(Y \mid X) $ 表示：已知随机变量 $ X $ 的条件下，随机变量 $ Y $ 的不确定性。
它定义为： $ X $ 给定条件下 $ Y $ 的条件概率分布的熵对 $ X $ 的期望：

$$ H(Y \mid X)=\mathbb{E}_{X \sim P(X)}[H(Y \mid X=x)]=-\mathbb{E}_{(X, Y) \sim P(X, Y)} \log P(Y \mid X) $$

$$
H(Y \mid X)=\sum_{x} p(x) H(Y \mid X=x)=-\sum_{x} \sum_{y} p(x, y) \log p(y \mid x)
$$

$$
H(Y \mid X)=\int p(x) H(Y \mid X=x) d x=-\iint p(x, y) \log p(y \mid x) d x d y
$$

根据定义可以证明： $ H(X, Y)=H(Y \mid X)+H(X) $ 。

即：描述 $ X $ 和 $ Y $ 所需要的信息是：描述 $ X $ 所需要的信息加上给定 $ X $ 条件下描述 $ Y $ 所需的额外信息。

文章链接：
https://www.zywvvd.com/notes/study/information-theory/basic-knowledge/basic-knowledge/

“觉得不错的话，给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信支付

支付宝支付

Information_theory

#Information_theory

信息论 - 基础概念

https://www.zywvvd.com/notes/study/information-theory/basic-knowledge/basic-knowledge/

作者

Yiwei Zhang

发布于

2021年5月27日

许可协议