概率论基础 - 8 - 大数定理

本文最后更新于：2025年4月14日晚上

概率论历史上第一个极限定理属于伯努利，后人称之为“大数定律”。概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。

依概率收敛

定义

设$Y_1,Y_2, \dots ,Y_n, \dots$ 是一个随机变量序列，$a$是一个常数。

若对于任意正数$\varepsilon $有：
$$ \lim _{n \rightarrow \infty} P\left\{\left|Y_{n}-a\right| \leq \varepsilon\right\}=1 $$
则称序列依概率收敛于$a$，记作：

$$
Y_{n} \stackrel{P}{\rightarrow} a
$$

含义

收敛：表明这是一个随机变量序列，而不是某个随机变量；且序列是无限长，而不是有限长。
依概率：表明序列无穷远处的随机变量$Y_{\infty}$的分布规律为：绝大部分分布于点 $a$，极少数位于$a$ 之外。且分布于$a$ 之外的事件发生的概率之和为0。

大数定理

设随机变量$X_1,X_2, \dots ,X_n, \dots$ 相互独立，且具有相同的数学期望和方差：

$$
\mathbb{E}\left[X_{k}\right]=\mu, \operatorname{Var}\left[X_{k}\right]=\sigma^{2}
$$

则序列$X_i$依概率收敛于$\mu$：

$$ \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^{n} X_{i}-E\left(X_{i}\right)\right|<\varepsilon\right\}=1 $$

这里并没有要求随机变量$X_1,X_2, \dots ,X_n, \dots$ 同分布。

证明见切比雪夫不等式

辛钦定理

设随机变量$X_1,X_2, \dots ,X_n, \dots$ 相互独立，服从同一分布，且具有相同的数学期望$\mu$，则对于任意正数$\varepsilon$有：

$$ \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\mu\right|<\varepsilon\right\}=1 $$

注意：这里并没有要求随机变量$X_i$的方差存在

证明

由于$X_i$同分布，他们有相同的分布，也就具有相同的特征函数：

$$
\varphi_{X}(t)=E\left[e^{i t X}\right]
$$

其中$e^{i t X}$为：

$$
e^{i t X}=1+\frac{i t X}{1}-\frac{t^{2} X^{2}}{2 !}+\cdots+\frac{(i t)^{n} X^{n}}{n !}
$$

因此$X$的期望$E(X)$可以用特征函数在$t=0$处的一阶导数表示：

$$ \begin{array}{l} \varphi_{X}'(0)=iE(X)\\ E(X)=\frac{\varphi_{X}'(0)}{i} \end{array} $$

将特征函数在$t=0$处泰勒展开，有：

$$
\varphi_{X}(t)=\varphi_{X}(0)+\varphi_{X}'(0)t+o(t)=1+i\mu t+o(t)
$$

其中$\mu$=$E(X)$
由于$X_i$相互独立，变量$\frac{1}{n} \sum_{k=1}^{n} X_{k}$的特征函数为：

$$ \begin{array}{l} {g_n}(t) &= E[{e^{it\frac{1}{n}\sum\limits_{k = 1}^n {{X_k}} }}]\\ &= E[{e^{i\frac{{\rm{t}}}{n}{X_1}}} \cdot {e^{i\frac{{\rm{t}}}{n}{X_2}}} \cdot \cdots \cdot {e^{i\frac{{\rm{t}}}{n}{X_n}}}]\\ &= {\{ E[{e^{i\frac{{\rm{t}}}{n}X}}]\} ^n}\\ &= {[{\varphi _X}(\frac{t}{n})]^n}\\ &= {[1 + i\mu \frac{t}{n} + o(t)]^n} \end{array} $$

根据（可由洛必达法则推出）：

$$ \mathop {\lim }\limits_{n \to \infty } {\rm{(1 + }}\frac{{\rm{a}}}{n}{)^n} = {e^a} $$

得：

$$
{g_n}(t)=e^{i\mu t}=1+\frac{i t E(X)}{1}-\frac{t^{2} E(X^{2})}{2 !}+\cdots+\frac{(i t)^{n} E(X^{n})}{n !}
$$

而$e^{i\mu t}$为：

$$
e^{i\mu t}=1+\frac{i t \mu}{1}-\frac{t^{2} \mu^{2}}{2 !}+\cdots+\frac{(i t)^{n} \mu^{n}}{n !}
$$

即$X$的$n$阶矩与期望的关系为：

$$
E(X^n)=\mun
$$

变量$\frac{1}{n} \sum_{k=1}^{n} X_{k}$与退化函数：

$$ F(X) = \left\{ {\begin{array}{*{20}{c}} {\mu,X = a}\\ {0,X \ne a} \end{array}} \right. $$

二者具有相同的特征函数，因此具有相同的分布，有：

$$ \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\mu\right|<\varepsilon\right\}=1 $$

伯努利大数定理

设$n_A$为$n$次独立重复实验中事件$A$发生的次数， $p$是事件$A$在每次试验中发生的概率。则对于任意正数$\varepsilon$有：

$$ \begin{aligned} & \lim _{n \rightarrow \infty} P\left\{\left|\frac{n_{A}}{n}-p\right|<\varepsilon\right\}=1 \\ \text { or : } & \lim _{n \rightarrow \infty} P\left\{\left|\frac{n_{A}}{n}-p\right| \geq \varepsilon\right\}=0 \end{aligned} $$