信息论 - 基础概念

本文最后更新于:2021年11月1日 中午

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。

信息

  • 信息是用来消除事情的不确定性的,不确定性的减少量等于**信息的信息量。*
  • 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。
    • 发生可能性较大的事件包含较少的信息。
    • 发生可能性较小的事件包含较多的信息。
    • 独立事件包含额外的信息 。

  • 对于事件 $ X=x $, 定义自信息 (self-information) 为:

$$
I(x)=-\log P(x)
$$

  • 自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是嫡:
$$ H(X)=\mathbb{E}_{X \sim P(X)}[I(x)]=-\mathbb{E}_{X \sim P(X)}[\log P(x)] $$
  • 记作 $ H§ $

  • 熵刻画了按照真实分布 $ P $ 来识别一个样本所需要的编码长度的期望(即平均编码长度)。

    如:含有4个字母 $ (A, B, C, D) $ 的样本集中,真实分布 $ P=\left(\frac{1}{2}, \frac{1}{2}, 0,0\right) $, 则只需要1位编码即可识别样本。

  • 对于离散型随机变量 $ X $, 假设其取值集合大小为 $ k $, 则

    可以证明: $ 0 \leq H(X) \leq \log k $

    证明

    已知:

    $$
    P(X=i)=p_i
    $$

    $$
    H(X)=\sum_{i=1}^{k} P_{i} \log P_{i}
    $$

    $$
    \sum_{i=1}^{k} P_{i}=1
    $$

    建立拉格朗日方程:

    $$
    L=\sum_{i=1}^{k} P_{i} \log P_{i}+\lambda \sum_{i=1}^{k} P_{i}
    $$

    解方程组:

    $$ \left\{\begin{array}{l}\frac{\partial L}{\partial P_{i}}=0 \\ \sum_{i=1}^{k} P_{i}=1\end{array}\right. $$

    有:
    $$
    \frac{\partial L}{\partial P_{i}}=\log P_{i}+1+\lambda=0
    $$
    $$
    \log P_{i}=-1-\lambda
    $$
    $$
    P_{i}=2^{-1-\lambda}
    $$

    由于$P_i$之间两两相等,且和为1

    因此有:
    $$
    P_i=\frac{1}{k}
    $$
    即当所有可能性的概率相等时熵最大

    此时熵:
    $$
    H(X) = \sum\nolimits_{i = 1}^{i = k} {\frac{1}{k}\log \frac{1}{k} = \log \frac{1}{k}}
    $$

条件熵

  • 对于随机变量 $ Y $ 和 $ X $, 条件嫡 $ H(Y \mid X) $ 表示:已知随机变量 $ X $ 的条件下,随机变量 $ Y $ 的不确定性。
    它定义为: $ X $ 给定条件下 $ Y $ 的条件概率分布的嫡对 $ X $ 的期望:
$$ H(Y \mid X)=\mathbb{E}_{X \sim P(X)}[H(Y \mid X=x)]=-\mathbb{E}_{(X, Y) \sim P(X, Y)} \log P(Y \mid X) $$
  • 对于离散型随机变量,有.

$$
H(Y \mid X)=\sum_{x} p(x) H(Y \mid X=x)=-\sum_{x} \sum_{y} p(x, y) \log p(y \mid x)
$$

  • 对于连续型随机变量,有:

$$
H(Y \mid X)=\int p(x) H(Y \mid X=x) d x=-\iint p(x, y) \log p(y \mid x) d x d y
$$

  • 根据定义可以证明: $ H(X, Y)=H(Y \mid X)+H(X) $ 。

    即:描述 $ X $ 和 $ Y $ 所需要的信息是:描述 $ X $ 所需要的信息加上给定 $ X $ 条件下描述 $ Y $ 所需的额外信息。

参考资料