本文最后更新于:2022年8月18日 上午
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。
信息
- 信息是用来消除事情的不确定性的,不确定性的减少量等于信息的信息量。
- 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。
- 发生可能性较大的事件包含较少的信息。
- 发生可能性较小的事件包含较多的信息。
- 独立事件包含额外的信息 。
熵
- 对于事件 $ X=x $, 定义自信息 (self-information) 为:
$$
I(x)=-\log P(x)
$$
- 自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是熵:
-
记作 $ H§ $
-
熵刻画了按照真实分布 $ P $ 来识别一个样本所需要的编码长度的期望(即平均编码长度)。
如:含有4个字母 $ (A, B, C, D) $ 的样本集中,真实分布 $ P=\left(\frac{1}{2}, \frac{1}{2}, 0,0\right) $, 则只需要1位编码即可识别样本。
-
对于离散型随机变量 $ X $, 假设其取值集合大小为 $ k $, 则
可以证明: $ 0 \leq H(X) \leq \log k $
证明
已知:
$$
P(X=i)=p_i
$$$$
H(X)=\sum_{i=1}^{k} P_{i} \log P_{i}
$$$$
\sum_{i=1}^{k} P_{i}=1
$$建立拉格朗日方程:
$$
L=\sum_{i=1}^{k} P_{i} \log P_{i}+\lambda \sum_{i=1}^{k} P_{i}
$$解方程组:
$$ \left\{\begin{array}{l}\frac{\partial L}{\partial P_{i}}=0 \\ \sum_{i=1}^{k} P_{i}=1\end{array}\right. $$有:
$$
\frac{\partial L}{\partial P_{i}}=\log P_{i}+1+\lambda=0
$$
$$
\log P_{i}=-1-\lambda
$$
$$
P_{i}=2^{-1-\lambda}
$$由于$P_i$之间两两相等,且和为1
因此有:
$$
P_i=\frac{1}{k}
$$
即当所有可能性的概率相等时熵最大此时熵:
$$
H(X) = \sum\nolimits_{i = 1}^{i = k} {\frac{1}{k}\log \frac{1}{k} = \log \frac{1}{k}}
$$
条件熵
- 对于随机变量 $ Y $ 和 $ X $, 条件熵 $ H(Y \mid X) $ 表示:已知随机变量 $ X $ 的条件下,随机变量 $ Y $ 的不确定性。
它定义为: $ X $ 给定条件下 $ Y $ 的条件概率分布的熵对 $ X $ 的期望:
- 对于离散型随机变量,有.
$$
H(Y \mid X)=\sum_{x} p(x) H(Y \mid X=x)=-\sum_{x} \sum_{y} p(x, y) \log p(y \mid x)
$$
- 对于连续型随机变量,有:
$$
H(Y \mid X)=\int p(x) H(Y \mid X=x) d x=-\iint p(x, y) \log p(y \mid x) d x d y
$$
-
根据定义可以证明: $ H(X, Y)=H(Y \mid X)+H(X) $ 。
即:描述 $ X $ 和 $ Y $ 所需要的信息是:描述 $ X $ 所需要的信息加上给定 $ X $ 条件下描述 $ Y $ 所需的额外信息。
参考资料
文章链接:
https://www.zywvvd.com/notes/study/information-theory/basic-knowledge/basic-knowledge/
“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信支付

支付宝支付