概率论基础 - 11 - 高斯分布 / 正态分布

本文最后更新于：2024年5月7日下午

本文记录高斯分布。

高斯分布 / 正态分布

正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数，且对它的概率分布一无所知，通常会假设它服从正态分布。有两个原因支持这一选择：

建模的任务的真实分布通常都确实接近正态分布。

中心极限定理表明，多个独立随机变量的和近似正态分布。

在具有相同方差的所有可能的概率分布中，正态分布的熵最大（即不确定性最大）。

一维正态分布

正态分布的概率密度函数为:

$$ p(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-(x-\mu)^{2} /\left(2 \sigma^{2}\right)},-\infty < x < \infty $$

其中 $ \mu, \sigma(\sigma>0) $ 为常数。
若随机变量 $ X $ 的概率密度函数如上所述, 则称 $ X $ 服从参数为 $ \mu, \sigma $ 的正态分布或者高斯分布，记作 $ X \sim N\left(\mu, \sigma^{2}\right) $
特别的, 当 $ \mu=0, \sigma=1 $ 时，称为标准正态分布，其概率密度函数记作 $ \varphi(x) $, 分布函数记作 $ \Phi(x) $
为了计算方便, 有时也记作:

$$
\mathcal{N}\left(x ; \mu, \beta^{-1}\right)=\sqrt{\frac{\beta}{2 \pi}} \exp \left(-\frac{1}{2} \beta(x-\mu)^{2}\right)
$$

,其中 $ \beta \in(0, \infty)$
期望： $ \mathbb{E}[X]=\mu$
方差: $ \operatorname{Var}[X]=\sigma^{2} $
二阶矩：$\mathbb{E}[X^2] = \sigma^{2} + \mu^2$

正态分布的概率密度函数性贡

曲线关于 $ x=\mu $ 对称
Q 曲线在 $ x=\mu $ 时取最大值
曲线在 $ x=\mu \pm \sigma $ 处有抛点
参数 $ \mu $ 决定曲线的位置
$ \sigma $ 决定图形的胖瘦

二维正态分布

二维正态随机变量 $ (X, Y) $ 的概率密度为:

$$ \begin{aligned} p(x, y) &=\frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{\frac { - 1 } { 2 ( 1 - \rho ^ { 2 } ) } \left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}\right.\right. \left.\left.-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\} \end{aligned} $$

根据定义，可以计算出:

$$ p_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma_{1}} e^{-\left(x-\mu_{1}\right)^{2} /\left(2 \sigma_{1}^{2}\right)},-\infty < x < \infty $$ $$ p_{Y}(y)=\frac{1}{\sqrt{2 \pi} \sigma_{2}} e^{-\left(y-\mu_{2}\right)^{2} /\left(2 \sigma_{3}^{2}\right)},-\infty < y < \infty $$ $$ \mathbb{E}[X]=\mu_{1} $$ $$ \mathbb{E}[Y]=\mu_{2} $$ $$ \operatorname{Var}[X]=\sigma_{1}^{2} $$ $$ \operatorname{Var}[Y]=\sigma_{2}^{2} $$ $$ \operatorname{Cov}[X, Y]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}\left(x-\mu_{1}\right)\left(y-\mu_{2}\right) p(x, y) d x d y=\rho \sigma_{1} \sigma_{2} $$ $$ \rho_{X Y}=\rho $$

引入矩阵:
$$ \overrightarrow{\mathbf{x}}=\left[\begin{array}{l} x \\ y \end{array}\right] \quad \vec{\mu}=\left[\begin{array}{c} \mu_{1} \\ \mu_{2} \end{array}\right] \quad \mathbf{\Sigma}=\left[\begin{array}{ll} c_{11} & c_{12} \\ c_{21} & c_{22} \end{array}\right]=\left[\begin{array}{cc} \sigma_{1}^{2} & \rho \sigma_{1} \sigma_{2} \\ \rho \sigma_{1} \sigma_{2} & \sigma_{2}^{2} \end{array}\right] $$
$ \mathbf{\Sigma} $ 为 $ (X, Y) $ 的协方差矩阵。其行列式为:
$$ \operatorname{det} \mathbf{\Sigma}=\sigma_{1}^{2} \sigma_{2}^{2}\left(1-\rho^{2}\right) $$
其逆矩阵为:

$$ \mathbf{\Sigma}^{-1}=\frac{1}{\operatorname{det} \mathbf{\Sigma}}\left[\begin{array}{cc} \sigma_{2}^{2} & -\rho \sigma_{1} \sigma_{2} \\ -\rho \sigma_{1} \sigma_{2} & \sigma_{1}^{2} \end{array}\right] $$

于是 $ (X, Y) $ 的概率密度函数可以写作：

$$ p(x, y)=\frac{1}{(2 \pi)(\operatorname{det} \mathbf{\Sigma})^{1 / 2}} \exp \left\{-\frac{1}{2}(\overrightarrow{\mathbf{x}}-\vec{\mu})^{T} \mathbf{\Sigma}^{-1}(\overrightarrow{\mathbf{x}}-\vec{\mu})\right\} $$

其中：
- 均值 $ \mu_{1}, \mu_{2} $ 决定了曲面的位置
- 标准差 $ \sigma_{1}, \sigma_{2} $ 决定了曲面的陡峭程度
- $ \rho $ 决定了协方差矩阵的形状，从而决定了曲面的形状：
- $ \rho=0 $ 时, 协方差矩阵对角线非零，其他位置均为零。此时表示随机变量之间不相关，曲面在 $ z=0 $ 平面的截面是个圆形
- $ \rho=0.5 $ 时，协方差矩阵对角线非零，其他位置非零。此时表示随机变量之间相关。曲面在 $ z=0 $ 平面的截面是个椭圆，相当于圆形沿着直线 $ y=x $ 方向压缩
- $ \rho=1 $ 时, 协方差矩阵对角线非零, 其他位置非零。此时表示随机变量之间完全相关。此时的联合分布概率函数形状为：曲面在 $ z=0 $ 平面的截面是直线 $ y=x $, 相当于圆形沿着直线 $ y=x $ 方向压缩成一条直线

图形展示

二维高斯分布由 5 个参数控制，如下图所示，可以调整数值以加深对该分布的理解：

#### 多维正态分布

多维正态随机变量 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $, 引入列矩阵：

$$ \overrightarrow{\mathbf{x}}=\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right] \quad \vec{\mu}=\left[\begin{array}{c} \mu_{1} \\ \mu_{2} \\ \vdots \\ \mu_{n} \end{array}\right]=\left[\begin{array}{c} \mathbb{E}\left[X_{1}\right] \\ \mathbb{E}\left[X_{2}\right] \\ \vdots \\ \mathbb{E}\left[X_{n}\right] \end{array}\right] $$

$ \mathbf{\Sigma} $ 为 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 的协方差矩阵。则:

$$ \begin{array}{r} p\left(x_{1}, x_{2}, x_{3}, \cdots, x_{n}\right)=\frac{1}{(2 \pi)^{n / 2}(\operatorname{det} \mathbf{\Sigma})^{1 / 2}} \exp \left\{-\frac{1}{2}(\overrightarrow{\mathbf{x}}-\vec{\mu})^{T} \mathbf{\Sigma}^{-1}(\overrightarrow{\mathbf{x}}-\vec{\mu})\right\} \\ \end{array} $$

记做：

$$
\mathcal{N}(\overrightarrow{\mathbf{x}} ; \vec{\mu}, \mathbf{\Sigma})=\sqrt{\frac{1}{(2 \pi)^{n} \operatorname{det}(\mathbf{\Sigma})}} \exp \left(-\frac{1}{2}(\overrightarrow{\mathbf{x}}-\vec{\mu})^{T} \mathbf{\Sigma}^{-1}(\overrightarrow{\mathbf{x}}-\vec{\mu})\right)
$$

四条性质

$ n $ 维正态变量的每一个分量都是正态变量; 反之, 若 $ X_{1}, X_{2}, \cdots, X_{n} $ 都是正态变量, 且相互独立, 则 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 是 $ n $ 维正态变量。
$ n $ 维随机变量 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 服从 $ n $ 维正态分布的充要条件是:
- $ X_{1}, X_{2}, \cdots, X_{n_{n}} $ 的任意线性组合$ l_{1} X_{1}+l_{2} X_{2}+\cdots+l_{n} X_{n} $ 服从一维正态分布, 其中 $ l_{1}, l_{2}, \cdots, l_{n} $ 不全为 $ 0_{\circ} $
若 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 服从 $ n $ 维正态分布, 设 $ Y_{1}, Y_{2}, \cdots, Y_{k} $ 是 $ X_{j}, j=1,2, \cdots, n $ 的线性函数, 则 $ \left(Y_{1}, Y_{2}, \cdots, Y_{k}\right) $ 也服从多维正态分布。这一性质称为正态变量的线性变换不变性。
设 $ \left(X_{1}, X_{2}, \cdots, X_{n}\right) $ 服从 $ n $ 维正态分布, 则 $ X_{1}, X_{2}, \cdots, X_{n} $ 相互独立 $ \Longleftrightarrow X_{1}, X_{2}, \cdots, X_{n} $ 两两不相关。