贝叶斯估计

本文最后更新于：2024年5月7日下午

本文介绍贝叶斯估计。

介绍

在概率论与数理统计领域中，对于一个未知参数的分布我们往往可以采用生成一批观测数据、通过这批观测数据做参数估计的做法来估计参数。最常用的有最大似然估计(MLP)、矩估计、最大后验估计(MAP)、贝叶斯估计等。

MLP通过最大化似然函数$L(\theta \mid D)$从而找出参数$\theta$，思想在于找出能最大概率生成这批数据的参数。但是这种做法完全依赖于数据本身，当数据量大的时候，最大似然估计往往能很好的估计出参数$\theta$ ；但是当数据量小的时候，估计出来的结果并不会很好。就例如丢硬币问题，当我们投掷了5次，得出了正正正正正的结果，极大似然估计会得出投出正面的概率为100%！这显然是不符常理的。
贝叶斯派的人认为，被估计的参数同样服从一种分布，即参数也为一个随机变量。他们在估计参数前会先带来先验知识，例如参数在 $[0.5,0.6] $的区域内出现的概率最大，在引入了先验知识后在数据量小的情况下估计出来的结果往往会更合理。

MAP与贝叶斯估计

MLP 认为参数是常数，希望能找出最大化产生观测数据的参数，即：

$$ \theta^{*}=\operatorname{argmax}_{\theta} L(\theta \mid D)=\operatorname{argmax}_{\theta} P(D \mid \theta)=\operatorname{argmax}_{\theta} \theta^{m_{h}}(1-\theta)^{m_{t}} $$

贝叶斯派认为参数是一个随机变量，对它做估计就是计算其后验概率分布 $P(\theta \mid D)$ ，我们借助贝叶斯公式展开有：
$$
P(\theta \mid D)=\frac{P(D \mid \theta) P(\theta)}{P(D)}
$$
其中$P(D)$可当成是常数，因此可以有：
$$
P(\theta \mid D) \propto P(D \mid \theta) P(\theta)
$$
其中$P(\theta)$为参数服从的分布，即先验知识。

接着我们可以有两种做法：

最大后验估计(MAP)

找出最大化后验概率的参数：

$$
\theta^{*}=\operatorname{argmax}_{\theta} P(D \mid \theta) P(\theta)
$$

预测阶段，借助参数做预测：

$$ P(X^{new}|\theta^*,D) $$

贝叶斯估计

借助先验分布 $P(\theta)$与观测数据得到的似然$P(D|\theta)$ 得出后验分布 $P(\theta|D)$，预测阶段借助后验分布有:

$$ P\left(X^{n e w} \mid D\right)=\int P\left(X^{n e w}, \theta \mid D\right) d \theta=\int P\left(X^{n e w} \mid \theta, D\right) P(\theta \mid D) d \theta $$

三种参数估计方法对比

无论是MLP还是MAP，目的均在于找到最优的$\theta$；但是贝叶斯估计目的在于找到后验分布，并利用后验分布做群体决策。

更具体地，做参数估计的最终目的都是在于借助估计的结果做下一次的预测，参数可取的范围很大，可能有$ \theta_{1}, \theta_{2}, \cdots, \theta_{m} $ 等，三种估计方法的区别如下：

MLP是从这么多参数中，找到表现最好的参数 $\theta^*$ （最可能生成观测数据的那一个参数），并借助该参数做预测。
- 目标式子： $ \theta^{*}=\operatorname{argmax}_{\theta} L(\theta \mid D) $
- 预测阶段：$ P\left(X^{\text {new }} \mid \theta^{*}\right) $
MAP带有一定的观点（先验知识），他知道这些参数之前的表现如何，故它找到的是综合以前的评价与当前表现最好的参数 $\theta^*$，并借助该参数做预测。
- 目标式子：$ \theta^{*}=\operatorname{argmax}_{\theta} P(\theta \mid D) $
- 预测阶段： $ P\left(X^{\text {new }} \mid \theta^{*}\right) $
贝叶斯估计同样带有一定的观点，但是它做预测时是用所有参数共同决定，只不过每个参数会各有权重（ $P(\theta|D)$），权重是以前的评价与当前的表现的综合。
- 目标式子：得到 $P(\theta|D)$
- 预测阶段： $ P\left(X^{\text {new }} \mid D\right)=\int P\left(X^{\text {new }} \mid \theta, D\right) P(\theta \mid D) d \theta $

	目标	预测形式
MLP	从观测数据中找出最优参数$\theta^*$	$ P\left(X^{\text {new }} \mid \theta^{*}\right) $
MAP	从观测数据与先验分布中找出最优参数$\theta^*$	$ P\left(X^{\text {new }} \mid \theta^{*}\right) $
贝叶斯估计	找出后验分布 $P(\theta\|D)$	不只是最优参数，而是所有参数共同参与决策$\int P\left(X^{\text {new }} \mid \theta, D\right) P(\theta \mid D) d \theta $