概率论基础 - 11 - 高斯分布 / 正态分布

本文最后更新于:2021年11月1日 中午

本文记录高斯分布。

高斯分布 / 正态分布

正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:

  • 建模的任务的真实分布通常都确实接近正态分布。
  • 中心极限定理表明,多个独立随机变量的和近似正态分布。
  • 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。

一维正态分布

  • 正态分布的概率密度函数为:

$$
p(x)=\frac{1}{\sqrt{2 \pi} \sigma} e{-(x-\mu){2} /\left(2 \sigma^{2}\right)},-\infty<x<\infty
$$

  • 其中 $ \mu, \sigma(\sigma>0) $ 为常数。
    若随机变量 $ X $ 的概率密度函数如上所述, 则称 $ X $ 服从参数为 $ \mu, \sigma $ 的正态分布或者高斯分布,记作 $ X \sim N\left(\mu, \sigma^{2}\right) $
    特别的, 当 $ \mu=0, \sigma=1 $ 时,称为标准正态分布,其概率密度函数记作 $ \varphi(x) $, 分布函数记作 $ \Phi(x) $

  • 为了计算方便, 有时也记作:

$$
\mathcal{N}\left(x ; \mu, \beta^{-1}\right)=\sqrt{\frac{\beta}{2 \pi}} \exp \left(-\frac{1}{2} \beta(x-\mu)^{2}\right)
$$

  • ,其中 $ \beta \in(0, \infty)$
  • 期望: $ \mathbb{E}[X]=\mu$
  • 方差: $ \operatorname{Var}[X]=\sigma^{2} $
正态分布的概率密度函数性贡
  • 曲线关于 $ x=\mu $ 对称
  • Q 曲线在 $ x=\mu $ 时取最大值
  • 曲线在 $ x=\mu \pm \sigma $ 处有抛点
  • 参数 $ \mu $ 决定曲线的位置
  • $ \sigma $ 决定图形的胖瘦

二维正态分布

  • 二维正态随机变量 $ (X, Y) $ 的概率密度为:
$$ \begin{aligned} p(x, y) &=\frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{\frac { - 1 } { 2 ( 1 - \rho ^ { 2 } ) } \left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}\right.\right. \left.\left.-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\} \end{aligned} $$
  • 根据定义,可以计算出:

$$ p_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma_{1}} e{-\left(x-\mu_{1}\right){2} /\left(2 \sigma_{1}^{2}\right)},-\infty<x<\infty $$
$$ p_{Y}(y)=\frac{1}{\sqrt{2 \pi} \sigma_{2}} e{-\left(y-\mu_{2}\right){2} /\left(2 \sigma_{3}^{2}\right)},-\infty<y<\infty $$
$$ \mathbb{E}[X]=\mu_{1} $$
$$ \mathbb{E}[Y]=\mu_{2} $$
$$ \operatorname{Var}[X]=\sigma_{1}^{2} $$
$$ \operatorname{Var}[Y]=\sigma_{2}^{2} $$
$$ \operatorname{Cov}[X, Y]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}\left(x-\mu_{1}\right)\left(y-\mu_{2}\right) p(x, y) d x d y=\rho \sigma_{1} \sigma_{2} $$
$$ \rho_{X Y}=\rho $$

  • 引入矩阵:

    $$ \overrightarrow{\mathbf{x}}=\left[\begin{array}{l} x \\ y \end{array}\right] \quad \vec{\mu}=\left[\begin{array}{c} \mu_{1} \\ \mu_{2} \end{array}\right] \quad \mathbf{\Sigma}=\left[\begin{array}{ll} c_{11} & c_{12} \\ c_{21} & c_{22} \end{array}\right]=\left[\begin{array}{cc} \sigma_{1}^{2} & \rho \sigma_{1} \sigma_{2} \\ \rho \sigma_{1} \sigma_{2} & \sigma_{2}^{2} \end{array}\right] $$

    $ \mathbf{\Sigma} $ 为 $ (X, Y) $ 的协方差矩阵。其行列式为 $ \operatorname{det} \mathbf{\Sigma}=\sigma_{1}^{2} \sigma_{2}{2}\left(1-\rho{2}\right) $, 其逆矩阵为:

    $$ \mathbf{\Sigma}^{-1}=\frac{1}{\operatorname{det} \mathbf{\Sigma}}\left[\begin{array}{cc} \sigma_{2}^{2} & -\rho \sigma_{1} \sigma_{2} \\ -\rho \sigma_{1} \sigma_{2} & \sigma_{1}^{2} \end{array}\right] $$

    于是 $ (X, Y) $ 的概率密度函数可以写作:

$$ p(x, y)=\frac{1}{(2 \pi)(\operatorname{det} \mathbf{\Sigma})^{1 / 2}} \exp \left\{-\frac{1}{2}(\overrightarrow{\mathbf{x}}-\vec{\mu})^{T} \mathbf{\Sigma}^{-1}(\overrightarrow{\mathbf{x}}-\vec{\mu})\right\} $$
  • 其中:

    • 均值 $ \mu_{1}, \mu_{2} $ 决定了曲面的位置
    • 标准差 $ \sigma_{1}, \sigma_{2} $ 决定了曲面的陡肖程度
    • $ \rho $ 决定了协方差矩阵的形状,从而决定了曲面的形状:
    • $ \rho=0 $ 时, 协方差矩阵对角线非零,其他位置均为零。此时表示随机变量之间不相关,曲面在 $ z=0 $ 平面的截面是个圆形
    • $ \rho=0.5 $ 时,协方差矩阵对角线非零,其他位置非零。此时表示随机变量之间相关。曲面在 $ z=0 $ 平面的截面是个格圆,相当于圆形沿着直线 $ y=x $ 方向压缩
    • $ \rho=1 $ 时, 协方差矩阵对角线非零, 其他位置非零。此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 $ z=0 $ 平面的截面是直线 $ y=x $, 相当于圆形沿着直线 $ y=x $ 方向压缩成一条直线

多维正态分布

  • 多维正态随机变量 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $, 引入列矩阵:
$$ \overrightarrow{\mathbf{x}}=\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right] \quad \vec{\mu}=\left[\begin{array}{c} \mu_{1} \\ \mu_{2} \\ \vdots \\ \mu_{n} \end{array}\right]=\left[\begin{array}{c} \mathbb{E}\left[X_{1}\right] \\ \mathbb{E}\left[X_{2}\right] \\ \vdots \\ \mathbb{E}\left[X_{n}\right] \end{array}\right] $$
  • $ \mathbf{\Sigma} $ 为 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 的协方差矩阵。则:
$$ \begin{array}{r} p\left(x_{1}, x_{2}, x_{3}, \cdots, x_{n}\right)=\frac{1}{(2 \pi)^{n / 2}(\operatorname{det} \mathbf{\Sigma})^{1 / 2}} \exp \left\{-\frac{1}{2}(\overrightarrow{\mathbf{x}}-\vec{\mu})^{T} \mathbf{\Sigma}^{-1}(\overrightarrow{\mathbf{x}}-\vec{\mu})\right\} \\ \end{array} $$
  • 记做:

$$
\mathcal{N}(\overrightarrow{\mathbf{x}} ; \vec{\mu}, \mathbf{\Sigma})=\sqrt{\frac{1}{(2 \pi)^{n} \operatorname{det}(\mathbf{\Sigma})}} \exp \left(-\frac{1}{2}(\overrightarrow{\mathbf{x}}-\vec{\mu})^{T} \mathbf{\Sigma}^{-1}(\overrightarrow{\mathbf{x}}-\vec{\mu})\right)
$$

四条性质
  • $ n $ 维正态变量的每一个分量都是正态变量; 反之, 若 $ X_{1}, X_{2}, \cdots, X_{n} $ 都是正态变量, 且相互独立, 则 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 是 $ n $ 维正态变量。
  • $ n $ 维随机变量 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 服从 $ n $ 维正态分布的充要条件是:
    • $ X_{1}, X_{2}, \cdots, X_{n_{n}} $ 的任意线性组合$ l_{1} X_{1}+l_{2} X_{2}+\cdots+l_{n} X_{n} $ 服从一维正态分布, 其中 $ l_{1}, l_{2}, \cdots, l_{n} $ 不全为 $ 0_{\circ} $
  • 若 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 服从 $ n $ 维正态分布, 设 $ Y_{1}, Y_{2}, \cdots, Y_{k} $ 是 $ X_{j}, j=1,2, \cdots, n $ 的线性函数, 则 $ \left(Y_{1}, Y_{2}, \cdots, Y_{k}\right) $ 也服从多维正态分布。这一性质称为正态变量的线性变换不变性。
  • 设 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 服从 $ n $ 维正态分布, 则 $ X_{1}, X_{2}, \cdots, X_{n} $ 相互独立 $ \Longleftrightarrow X_{1}, X_{2}, \cdots, X_{n} $ 两两不相关。

参考资料