本文最后更新于:2023年12月5日 下午

中心极限定理(Central Limit Theorem,CTL),是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。。

概述

定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。 ——百度百科

  • 中心极限定理(CLT)指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。
  • 中心极限定理指出,随着随机变量数量的增加,许多具有有限方差的独立的且相同分布的随机变量的总和将趋于正态分布。

历史

独立同分布中心极限定理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。

拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。

1901年,俄国数学家里雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。如今,中心极限定理被认为是(非正式地)概率论中的首席定理。

棣莫佛-拉普拉斯中心极限定理只是中心极限定理的一个特例。经过约160年后的1934年,芬兰的数学家林德伯格和法国的数学家莱维分别证明出了更通用的中心极限定理。

二项分布中心极限定理

也称为棣莫佛-拉普拉斯定理(De Moivre–Laplace theorem),是中心极限定理的最初版本,讨论了服从二项分布的随机变量序列。它指出,参数为n, p的二项分布以$np$为均值、$np(1-p) $ 为方差的正态分布为极限。

  • Demoiver-Laplace 定理:设随机变量序列 $\eta_{n}, n=1,2, \ldots$ 服从参数为 $(n, p)$ 的二项分布,其中 $0<p<1$ 则对于任意 $x$, 有:
$$ \lim _{n \rightarrow \infty} P\left\{\frac{\eta_{n}-n p}{\sqrt{n p(1-p)}} \leq x\right\}=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-t^{2} \mid 2} d t=\Phi(x) $$
  • 该定理表明, 正态分布是二项分布的极限分布。当 $n$ 充分大时,可以利用正态分布来近似计算二项分布的概率。

$$
Y_{n} \sim N(n p, n p(1-p))
$$

独立同分布中心极限定理

该定理也称为 林德贝格-勒维 (Lindeberg-Levy) 中心极限定理。是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布随机变量序列的中央极限定理。它表明,独立同分布(i.i.d., 即 independent and identically distributed)、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限:

  • 设随机变量$X_1, X_2,\dots,X_n$独立同分布,且具有数学期望$\mu$和方差$\sigma^2$,前$n$个变量之和为$\overline S = \sum\limits_{i = 1}^n {{X_i}} \\$
  • 那么$\overline S_n$的期望和方差为$n\mu$和$n\sigma^2$,$\overline S_n$的标准化变量为:

$$
Y_n=\frac{\overline S_n - n\mu}{\sqrt n\sigma}
$$

定义

  • 中心极限定理的内容为:$Y_n$的概率分布函数$F_n(x)$对于任意$x$满足:
$$ \begin{array}{c} \lim _{n \rightarrow \infty} F_{n}(x)=\lim \limits_{n \rightarrow \infty} P\left\{Y_{n} \leq x\right\}=\lim \limits_{n \rightarrow \infty} P\left\{\frac{\sum_{k=1}^{n} X_{k}-n \mu}{\sqrt{n} \sigma} \leq x\right\} \\ =\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-t^{2} / 2} d t=\Phi(x) \end{array} $$

证明

通过观察某个分布的采样均值可以发现近似服从正态分布,我们的目标就是证明这个变量与正态分布的特征函数相同

  • 引入一些特征函数的结论
  • 正态分布的特征函数:
$$ {\varphi (t)}{ = {e^{ - \frac{{{t^2}}}{2}}}} $$

标准正态分布的特征函数

  • 随机变量$X_i$的特征函数用${\varphi_x (t)}$表示
  • $\overline S_n$的特征函数为:
$$ {\varphi_{S_n} (t)}=[{\varphi_x (t)}]^n $$

独立变量和的特征函数

  • $X_i$均值$\overline X=\frac{1}{n}\overline {S_n}$的特征函数:
$$ {\varphi_{\overline X} (t)}={\varphi_{S_n} (\frac{t}{n})}=[{\varphi_x (\frac{t}{n})}]^n $$

常数线性变换的特征函数

  • $Y_n=\frac{\overline S_n - n\mu}{\sqrt n\sigma}=\frac{\overline X - \mu}{\frac{\sigma}{\sqrt n}}=\frac{\sqrt n}{\sigma}\overline X - \frac{\sqrt n}{\sigma} \mu$ 的特征函数:
$$ \varphi_{y}(t)=e^{i\left(-\frac{\sqrt{n}}{\sigma} \mu\right) t} \cdot \varphi_{\bar{x}}\left(\frac{\sqrt{n}}{\sigma} t\right)=e^{i\left(-\frac{\sqrt{n}}{\sigma} \mu\right) t} \cdot\left[\varphi_{x}\left(\frac{t}{\sigma \sqrt{n}}\right)\right]^{n} $$
思路1
  • 取对数:
$$ \begin{aligned} \ln \varphi_{y}(t)&=\ln \left\{e^{i\left(-\frac{\sqrt{n}}{\sigma} \mu\right) t} \cdot\left[\varphi_{x}\left(\frac{t}{\sigma \sqrt{n}}\right)\right]^{n}\right\}\\ &=-i \frac{\sqrt{n}}{\sigma} \mu t+n \ln \left[\varphi_{x}\left(\frac{t}{\sigma \sqrt{n}}\right)\right]\\ &=\frac{-i \mu \frac{t}{\sigma \sqrt{n}}+\ln \left[\varphi_{x}\left(\frac{t}{\sigma \sqrt{n}}\right)\right]}{\frac{1}{n}}\\ \end{aligned} $$
  • 令$p=\frac{t}{\sigma \sqrt{n}}$, 当 $ n \rightarrow \infty $ 时, $ p \rightarrow 0$ 又 :
$$ \begin{aligned} &\varphi_{x}(0)=\int_{-\infty}^{\infty} f(x) d x=1\\ &\varphi_{x}^{\prime}(0)=\int_{-\infty}^{\infty} i x f(x) d x=i \mu\\ &\varphi_{x}^{\prime \prime}(0)=\int_{-\infty}^{\infty}-x^{2} f(x) d x=-E\left(X^{2}\right)=-\mu^{2}-\sigma^{2}\\ \end{aligned} $$
  • 有 :
$$ \begin{aligned} \lim _{n \rightarrow \infty} \ln \varphi_{y}(t)&=\lim _{n \rightarrow \infty} \frac{-i \mu \frac{t}{\sigma \sqrt{n}}+\ln \left[\varphi_{x}\left(\frac{t}{\sigma \sqrt{n}}\right)\right]}{\frac{1}{n}}\\ &=\frac{t^{2}}{\sigma^{2}} \lim _{p \rightarrow 0} \frac{-i \mu p+\ln \left[\varphi_{x}(p)\right]}{p^{2}} \quad(\text { 洛必达) }\\ &=\frac{t^{2}}{\sigma^{2}} \lim _{p \rightarrow 0} \frac{-i \mu+\frac{1}{\varphi_{x}(p)} \cdot \varphi_{x}^{\prime}(p)}{2 p} \quad(\text { 洛必达 })\\ &=\frac{t^{2}}{\sigma^{2}} \lim _{p \rightarrow 0} \frac{\varphi_{x}^{\prime \prime}(p) \cdot \varphi_{x}(p)-\varphi_{x}^{\prime}(p) \cdot \varphi_{x}^{\prime}(p)}{2\left[\varphi_{x}(p)\right]^{2}}\\ &=\frac{t^{2}}{\sigma^{2}} \cdot \frac{\varphi_{x}^{\prime \prime}(0) \cdot \varphi_{x}(0)-\varphi_{x}^{\prime}(0) \cdot \varphi_{x}^{\prime}(0)}{2\left[\varphi_{x}(0)\right]^{2}}\\ &=\frac{t^{2}}{\sigma^{2}} \cdot \frac{\left(-\mu^{2}-\sigma^{2}\right) \cdot 1-i \mu \cdot i \mu}{2 \cdot 1}\\ &=-\frac{t^{2}}{2} \end{aligned} $$
思路2
$$ \begin{array}{l} Y_{n}=\frac{n \bar{X}-\mu}{\sigma \sqrt{n}}=\frac{\sum_{i=1}^{n} \eta_{i}}{\sigma \sqrt{n}} \\\quad \eta_{i}=X_{i}-\mu \\ \varphi(t)=E\left(e^{i t Y_{n}}\right)=E\left(e^{i t \frac{\eta_{1}}{\sigma \sqrt{n}}} \cdot e^{i t \frac{\eta_{2}}{\sigma \sqrt{n}}} \cdot \ldots \cdot e^{i t \frac{\eta_{n}}{\sigma \sqrt{n}}}\right)=\left[\phi\left(\frac{t}{\sigma \sqrt{n}}\right)\right]^{n} \end{array} $$
  • $\phi(t)$ 为 $\eta_{i}$ 的特征函数
  • $\phi\left(\frac{t}{\sigma \sqrt{n}}\right)$ 在0点处的泰勒展开形式为:
$$ \begin{aligned} \phi\left(\frac{t}{\sigma \sqrt{n}}\right)=\phi(0) &+\phi^{\prime}(0) \frac{t}{\sigma \sqrt{n}}+\frac{\phi^{\prime \prime}(0)}{2 !}\left(\frac{t}{\sigma \sqrt{n}}\right)^{2}+o\left(\left(\frac{t}{\sigma \sqrt{n}}\right)^{2}\right) \\ &=1+0-\frac{t^{2}}{2 n}+o\left(\left(\frac{t}{\sigma \sqrt{n}}\right)^{2}\right) \end{aligned} $$
  • 所以, $\varphi(t)$ 为:
$$ \varphi(t)=\left(1-\frac{t^{2}}{2 n}+o\left(\left(\frac{t}{\sigma \sqrt{n}}\right)^{2}\right)\right)^{\left(-\frac{2 n}{t^{2}}\right) \times\left(-\frac{t^{2}}{2}\right)}=e^{-\frac{t^{2}}{2}}, n \rightarrow+\infty $$
都得出结论
  • 即有:
$$ \lim _{n \rightarrow \infty} \varphi_{y}(t)={e^{ - \frac{{{t^2}}}{2}}} $$
  • $Y_n$特征函数与正态分布相同,故有当$ n \rightarrow \infty$时,$Y_n$服从正态分布的结论

应用思路

  • 均值方差为$\mu$和$\sigma^2$,的独立同分布的随机变量$X_i$前$n$项之和$\overline S_n$的标准变化量$Y_n$,当$n$充分大时,其分布近似于标准正态分布
  • 即在$n$充分大时,$\overline S_n$分布近似于$N(n\mu,n\sigma^2)$
  • 一般情况下,很难求出$n$个随机变量之和的分布函数。因此当$n$充分大时,可以通过正态分布来做理论上的分析或者计算

独立不同分布中心极限定理

也称为 林德伯格-费勒(Lindeberg-Feller)定理 ,是中心极限定理的高级形式,是对林德伯格-莱维定理的扩展,讨论独立的,但不同分布的情况下的随机变量和。它表明,满足一定条件时,独立的,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限:

  • Liapunov 定理:设随机变量 $X_{1}, X_{2}, \cdots, X_{n}, \cdots$ 相互独立, 具有数学期望和方差:
    $$
    \mathbb{E}\left[X_{k}\right]=\mu_{k}, \operatorname{Var}\left[X_{k}\right]=\sigma_{k}^{2}
    $$

  • 记: $B_{n}^{2}=\sum_{k=1}^{n} \sigma_{k}^{2}$ 若存在正数 $\delta,$ 使得当 $n \rightarrow \infty$ 时,有:

    $$ \frac{1}{B_{n}^{2+\delta}} \sum_{k=1}^{n} \mathbb{E}\left[\left|X_{k}-\mu_{k}\right|^{2+\delta}\right] \rightarrow 0 $$
  • 则随机变量之和 $\overline{S X_{n}}=\sum_{k=1}^{n} X_{k}$ 的标准变化量:

$$ Z_{n}=\frac{\overline{S X_{n}}-\mathbb{E}\left[\overline{S X_{n}}\right]}{\sqrt{\operatorname{Var}\left[\overline{S X_{n}}\right]}}=\frac{\overline{S X_{n}}-\sum_{k=1}^{n} \mu_{k}}{B_{n}} $$
  • 概率分布函数 $F_{n}(x)$ 对于任意 $x$ 满足:
$$ \begin{array}{c} \lim _{n \rightarrow \infty} F_{n}(x)=\lim _{n \rightarrow \infty} P\left\{Z_{n} \leq x\right\}=\lim _{n \rightarrow \infty} P\left\{\frac{\sum_{k=1}^{n} X_{k}-\sum_{k=1}^{n} \mu_{k}}{B_{n}} \leq x\right\} \\ =\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-t^{2} / 2} d t=\Phi(x) \end{array} $$
  • 其物理意义为:

    相互独立的随机变量 $X_{1}, X_{2}, \cdots, X_{n}, \cdots$ 之和 $\overline{S X_{n}}=\sum_{k=1}^{n} X_{k}$ 的衍生随机变量序列 $Z_{n}=\frac{\overline{S X_{n}}-\sum_{k=1}^{n} \mu_{k}}{B_{n}},$ 当 $n$ 充分大时, 其分布近似与标准正态分布。

  • 这里并不要求 $X_{1}, X_{2}, \cdots, X_{n}, \cdots$ 同分布。

参考资料



文章链接:
https://www.zywvvd.com/notes/study/probability/central-limit-theorem/central-limit-theorem/


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

概率论基础 - 9 - 中心极限定理
https://www.zywvvd.com/notes/study/probability/central-limit-theorem/central-limit-theorem/
作者
Yiwei Zhang
发布于
2021年4月3日
许可协议