概率论基础 - 4 - 协方差、相关系数、协方差矩阵

本文最后更新于:2022年8月5日 晚上

本文介绍协方差。

协方差

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 —— 百度百科

定义

  • 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
  • 期望值分别为$E[X]$与$E[Y]$的两个实随机变量$X$与$Y$之间的**协方差$Cov(X,Y)$定义为:
$$ \begin{aligned} \operatorname{Cov}(X, Y) &=E[(X-E[X])(Y-E[Y])] \\ &=E[X Y]-2 E[Y] E[X]+E[X] E[Y] \\ &=E[X Y]-E[X] E[Y] \end{aligned} $$

相关系数

  • 定义随机变量$X$与$Y$的相关系数:

$$
\rho_{X Y}=\frac{\operatorname{Cov}[X, Y]}{\sqrt{\operatorname{Var}[X]} \sqrt{\operatorname{Var}[Y]}}
$$

  • 相关系数是协方差的归一化

与方差的关系

  • 由定义可知:
$$ \begin{array}{c} \operatorname{Cov}[X, Y]=\operatorname{Cov}[Y, X] \\ \operatorname{Cov}[X, X]=\operatorname{Var}[X] \\ \operatorname{Var}[X+Y]=\operatorname{Var}[X]+\operatorname{Var}[Y]+2 \operatorname{Cov}[X, Y] \end{array} $$

协方差的性质

  • $a, b$ 为常数,有:
    $$
    \operatorname{Cov}[a X, b Y]=a b \operatorname{Cov}[X, Y]
    $$

  • 变量和的协方差:

$$
\operatorname{Cov}\left[X_{1}+X_{2}, Y\right]=\operatorname{Cov}\left[X_{1}, Y\right]+\operatorname{Cov}\left[X_{2}, Y\right]
$$

  • 连续变量的协方差:

$$
\operatorname{Cov}[f(X), g(Y)]=\mathbb{E}[(f(X)-\mathbb{E}[f(X)])(g(Y)-\mathbb{E}[g(Y)])]
$$

  • 连续变量的协方差系数:

$$
\rho[f(X), g(Y)]=\frac{\operatorname{Cov}[f(X), g(Y)]}{\sqrt{\operatorname{Var}[f(X)]} \sqrt{\operatorname{Var}[g(Y)]}}
$$

协方差的物理意义

  • 协方差的绝对值越大,说明两个随机变量都远离它们的均值

  • 协方差为正,则说明两个随机变量同时趋向于取较大的值或者同时趋向于取较小的值

  • 协方差为负,则说明一个随变量趋向于取较大的值,另一个随机变量趋向于取较小的值

  • 两个随机变量的独立性可以导出协方差为零,但是两个随机变量的协方差为零无法导出独立性——正交-不相关-独立

    因为独立性也包括:没有非线性关系

    有可能两个随机变量是非独立的,但是协方差为零

    如:假设随机变量 $X \sim U[-1,1]$。定义随机变量 的概率分布函数为:
    $$
    P(S=1)=\frac{1}{2} P(S=-1)=\frac{1}{2}
    $$
    定义随机变量 $Y=SX$,则随机变量$X,Y$是非独立的,但是有:
    $$
    Cov[X,Y]=0
    $$

相关系数的物理意义

考虑以随机变量$X$的线性函数$a+bX$ 来近似表示$Y$。

  • 均方误差,$e$为:
$$ e=\mathbb{E}\left[(Y-(a+b X))^{2}\right]=\mathbb{E}\left[Y^{2}\right]+b^{2} \mathbb{E}\left[X^{2}\right]+a^{2}-2 b \mathbb{E}[X Y]+2 a b \mathbb{E}[X]-2 a \mathbb{E}[Y] $$
  • e取极小值,该优化问题为凸优化,直接求导为0即可:
$$ \left\{ \begin{array}{l} \frac{{\partial e}}{{\partial a}} = 2a + 2b\mathbb{E}[X] - 2\mathbb{E}[Y] = 0\\ \frac{{\partial e}}{{\partial b}} = 2b\mathbb{E}[{X^2}] - 2\mathbb{E}[XY] + 2a\mathbb{E}[X] = 0 \end{array} \right. $$
  • 解得:
$$ \left\{ {\begin{array}{*{20}{c}} {a = \mathbb{E}[Y] - \frac{{Cov[X,Y]}}{{Var[X]}}\mathbb{E}[X]}\\ {b = \frac{{Cov[X,Y]}}{{Var[X]}}} \end{array}} \right. $$
  • 带入$e$得:

$$
\min (e)=\mathbb{E}\left[\left(Y-\left(a_{0}+b_{0} X\right)\right)^{2}\right]=\left(1-\rho_{X Y}^{2}\right) \operatorname{Var}[Y]
$$

  • 因此有以下定理:

    • $\left|\rho_{X Y}\right| \leq 1$
    • $|\rho_{X Y}| = 1$的充要条件为:存在常数$a,b$使得$Y=a+bX$
  • 当$\left|\rho_{X Y}\right|$较大时, $e$较小,意味着随机变量$X$和$Y$联系较紧密。于是$\rho_{X Y}$ 是一个表征 $X$、$Y$之间线性关系紧密程度的量

  • 当$\rho_{X Y}=0$时,称$X$和$Y$ 不相关。

    • 不相关是就线性关系来讲的,而相互独立是一般关系而言的。
    • 相互独立一定不相关;不相关则未必独立。

协方差矩阵

  • 设$n$维随机变量$(X_1,X_2, \dots,X_n)$的二阶混合中心矩

$$
c_{i j}=\operatorname{Cov}\left[X_{i}, X_{j}\right]=\mathbb{E}\left[\left(X_{i}-\mathbb{E}\left[X_{i}\right]\right)\left(X_{j}-\mathbb{E}\left[X_{j}\right]\right)\right]
$$

  • 都存在,则称矩阵:
$$ \mathbf{C}=\left[\begin{array}{cccc} c_{11} & c_{12} & \cdots & c_{1 n} \\ c_{21} & c_{22} & \cdots & c_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n 1} & c_{n 2} & \cdots & c_{n n} \end{array}\right] $$
  • 为$n$维随机变量$(X_1,X_2, \dots,X_n)$的协方差矩阵
  • 由于$c_{ij} = c_{ji}$ 因此协方差矩阵是对称阵
  • 由于对角线为各个变量的方差,因此对角线非负
  • 通常$n$ 维随机变量的分布是不知道的,或者太复杂以致数学上不容易处理,因此实际中协方差矩阵非常重要。

参考资料


概率论基础 - 4 - 协方差、相关系数、协方差矩阵
https://www.zywvvd.com/notes/study/probability/covariance/covariance/
作者
Yiwei Zhang
发布于
2021年3月27日
许可协议