极大似然估计(MLE)和最大后验概率估计(MAP)

本文最后更新于:2021年11月1日 中午

本文介绍极大似然估计(MLE,Maximum Likelihood Estimation)和最大后验概率估计(MAP,Maximum A Posteriori Estimation)。

简介

MLE与MAP分别对应两种学派的参数估计方法,频率派和贝叶斯派。

  • 频率派认为参数是未知的常量,而样本是随机变量,可以通过样本的概率分布估计参数的值。
  • 贝叶斯派认为参数是随机变量,其符合某种潜在先验概率分布prior。根据获取的信息(likelihood/evidence)去不断调整先验分布,从而得到后验概率分布.

重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。

极大似然估计MLE

极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

MLE认为每个事件的发生都不是偶然的,存在即合理,为了解释这些事件的出现,决定系统的参数必须使得这些事件的出现更加合理才更好。因此MLE是求使得事件发生的概率最大化的情况下的参数。

  • 似然函数:

$$
l(\theta)=p(D \mid \theta)=p\left(x_{1}, x_{2}, \cdots, x_{N} \mid \theta\right)=\prod_{i=1}^{N} p\left(x_{i} \mid \theta\right)
$$

  • MLE
$$ \hat{\theta}=\arg \max _{\theta} l(\theta)=\arg \max _{\theta} \prod_{i=1}^{N} p\left(x_{i} \mid \theta\right) $$

为了便于计算, 我们对似然函数两边取对数,生成新的对数似然函数 (因为对数函数是单调增函数, 因此求似然函数最大化就可以转换成对数似然函数最大化) :

$$
p(X \mid \theta)=\prod_{x_1}^{x_n} p(x_i \mid \theta)=\sum_{x_1}^{x_n} \log _{t}(x_i \mid \theta)
$$

$$ \hat{\theta}=\arg \max _{\theta} \sum_{x_1}^{x_n} \log _{t}(x_i \mid \theta) $$

如果 $ \hat{\theta} $是参数空间中能使似然函数 $ l(\theta) $ 最大的 $ \theta$值, 则 $ \hat{\theta}$减该是“最可能"的参数值, 那么 $ \hat{\theta}$ 就是 $ \theta$的极大似然估计量。它是样本集的函数。

可以看出,MLE的参数估计值仅取决于样本,在数据量大的情况下还算靠谱,但是数据量小或者数据不靠谱的时候,结果也不靠谱。

举例

  • 设样本服从正态分布 $ N\left(\mu, \sigma^{2}\right) $
  • 则似然函数为:
$$ L\left(\mu, \sigma^{2}\right)=\prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} e^{\frac{1}{2 \sigma^{2}} \sum^{n}\left(x_{i}-\mu\right)^{2}} $$
  • 它的对数:
$$ \ln L\left(\mu, \sigma^{2}\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \left(\sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} $$
  • 求导, 得方程组:
$$ \left\{\begin{array}{l} \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right) \\ \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0 \end{array}\right. $$
  • 联合解得:
$$ \left\{\begin{array}{l} \mu^{*}=\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} \\ \sigma^{* 2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \end{array}\right. $$
  • 似然方程有唯一解 $\left(\mu^{ * }, \sigma^{ * 2}\right)$ , 而且它一定是最大值点, 这是因为当 $ |\mu| \rightarrow \infty $ 或 $ \sigma^{2} \rightarrow \infty $ 或 $ 0_{\text {时, }} $ 非负函数
  • $ L\left(\mu, \sigma^{2}\right) \rightarrow 0 $.于是U和 $ \sigma^{2} $ 的极大似然估计为 $ \left(\mu^{ * }, \sigma^{ * 2}\right) $.

最大后验概率估计MAP

MAP的思想类似,但是加入了参数的先验分布的假设。估计的过程就是根据样本的信息对参数的先验概率分布进行调整的过程,进而得到参数相对于样本的后验概率分布。为了满足事件发生即合理,即参数的后验概率应尽可能大,从而保证这些事件出现的情况更加合理,因此通过最大化后验概率来确定最终的参数的概率分布。

$$
\operatorname{argmaxp}(\theta \mid X)=\operatorname{argmax} \frac{p(X \mid \theta) p(\theta)}{p(X)}=\operatorname{argmaxp}(X \mid \theta) p(\theta)=\operatorname{argmax}\left(\prod_{x_1}^{x_n} p(x_i \mid \theta)\right) p(\theta)
$$

  • 为了便于计算,对两边取对数,后验概率最大化就变成了:

$$
\operatorname{argmax}\left(\sum_{x_1}^{x_n} \operatorname{logp}(x_i \mid \theta)+\log p(\theta)\right)
$$

二者的关系

相同点:MLE和MAP均是通过直接求数值解的方式估计参数。

不同点:MAP加入先验假设$p(\theta)$,相当于在MLE的基础上增加一个先验项,即$logp(\theta)$。

参考资料