线性回归 - MLE

本文最后更新于:2022年8月10日 上午

本文记录极大似然估计角度进行线性回归,得到最小二乘法结果的方法。

问题描述

考虑一个线性模型 ${y}=f({\bf{x}})$

其中$y$是模型的输出值,是标量,$\bf{x}$为$d$维实数空间的向量

  • 线性模型可以表示为:

$$
f(\bf{x})=\bf{w} ^Tx,w\in \mathbb{R}
$$

  • 线性回归的任务是利用$n$个训练样本:
$$ X=\left[\begin{array}{lll}\bf{x}_{1} & \cdots & \bf{x}_{n}\end{array}\right]^{T}=\left[\begin{array}{c}\bf{x}_{1}^{T} \\ \vdots \\ \bf{x}_{n}^{T}\end{array}\right] \quad \bf{x} \in \mathbb{R} $$
  • 和样本对应的标签:

$$
Y = [ y _ { 1 } \cdots \quad y _ { n } ] ^ { T } \quad y \in \mathbb{R}
$$

  • 来预测线性模型中的参数 $\bf{\omega}$,使得模型尽可能准确输出预测值

线性回归 / MLE

最小二乘法的损失函数是启发式定义来的,我们从另一个角度进行线性回归

  • 我们可以认为真实模型是带有噪声的,即:

$$
y=\bf{w}^Tx+\epsilon
$$

  • 其中噪声分布为:

$$
\epsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)
$$

  • $ x $ 是给定的, $ w $ 虽然是未知的,但是也是固定的, 所以 $ w^{T} x $ 是一个常量, 因此 $ y $ 也可以看作是一个关于随机变量 $ \epsilon $ 的函数,

$$
y=g(\epsilon)
$$

  • 估计$y$的均值:
$$ \begin{aligned} \mathbb{E}[y] &=\mathbb{E}[g(\epsilon)] \\ &=\mathbb{E}\left[w^{T} x+\epsilon\right] \\ &=\mathbb{E}\left[w^{T} x\right]+\mathbb{E}[\epsilon] \\ &=w^{T} x \end{aligned} $$
  • 方差:
$$ \begin{aligned} \operatorname{Var}[y] &=\operatorname{Var}[g(\epsilon)] \\ &=\operatorname{Var}\left[w^{T} x+\epsilon\right] \\ &=\operatorname{Var}\left[w^{T} x\right]+\operatorname{Var}[\epsilon] \\ &=\sigma^{2} \end{aligned} $$
  • 因此$y$的分布可以确定:

$$
y \sim \mathcal{N}\left(w^{T} x, \sigma^{2}\right)
$$

  • 接着就可以通过最大似然估计来求解$\bf{w}$,首先定义对数似然函数:
$$ \begin{aligned} \ell(w) &=\log P(Y \mid X, w) \\ &=\log \prod_{i=1}^{n} P\left(y_{i} \mid x_{i}, w\right) \\ &=\log \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x\right)^{2}\right) \\ &=\log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\sum_{i}^{n}\left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x\right)^{2}\right) \end{aligned} $$
  • 求解最优值:
$$ \begin{aligned} \hat{w} &=\arg \max _{w} \ell(w) \\ &=\arg \max _{w} \log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\sum_{i}^{n}\left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x_{i}\right)^{2}\right) \\ &=\arg \max _{w}-\frac{1}{2 \sigma} \sum_{i}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2} \\ &=\arg \min _{w} \sum_{i}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2} \\ &=\arg \min _{w} L(w) \end{aligned} $$
  • 此时得到的优化方程和最小二乘法得到的已经一样了,之后的求解过程也相同,
  • 求解优化方程:
$$ \begin{aligned} \hat{w} &=\arg \max _{w} L(w) \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y+Y^{T} Y \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y \end{aligned} $$
  • 求导并令倒数为0:

$$
\frac{\partial L(w)}{\partial w}=2 X^{T} X w-2 X^{T} Y=0
$$

  • 得到:

$$
X^{T} X w=X^{T} Y \Rightarrow \hat{w}=\left(X^{T} X\right)^{-1} X^{T} Y
$$

参考资料


线性回归 - MLE
https://www.zywvvd.com/notes/study/math/regression/linear-regression-MLE/linear-regression-MLE/
作者
Yiwei Zhang
发布于
2021年5月25日
许可协议