本文最后更新于:2024年5月7日 下午
本文记录极大似然估计角度进行线性回归,得到最小二乘法结果的方法。
问题描述
考虑一个线性模型 ${y}=f({\bf{x}})$
其中$y$是模型的输出值,是标量,$\bf{x}$为$d$维实数空间的向量
$$
f(\bf{x})=\bf{w} ^Tx,w\in \mathbb{R}
$$
$$
X=\left[\begin{array}{lll}\bf{x}_{1} & \cdots & \bf{x}_{n}\end{array}\right]^{T}=\left[\begin{array}{c}\bf{x}_{1}^{T} \\ \vdots \\ \bf{x}_{n}^{T}\end{array}\right] \quad \bf{x} \in \mathbb{R}
$$
$$
Y = [ y _ { 1 } \cdots \quad y _ { n } ] ^ { T } \quad y \in \mathbb{R}
$$
- 来预测线性模型中的参数 $\bf{\omega}$,使得模型尽可能准确输出预测值
线性回归 / MLE
最小二乘法的损失函数是启发式定义来的,我们从另一个角度进行线性回归
$$
y=\bf{w}^Tx+\epsilon
$$
$$
\epsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)
$$
- $ x $ 是给定的, $ w $ 虽然是未知的,但是也是固定的, 所以 $ w^{T} x $ 是一个常量, 因此 $ y $ 也可以看作是一个关于随机变量 $ \epsilon $ 的函数,
$$
y=g(\epsilon)
$$
$$
\begin{aligned} \mathbb{E}[y] &=\mathbb{E}[g(\epsilon)] \\ &=\mathbb{E}\left[w^{T} x+\epsilon\right] \\ &=\mathbb{E}\left[w^{T} x\right]+\mathbb{E}[\epsilon] \\ &=w^{T} x \end{aligned}
$$
$$
\begin{aligned}
\operatorname{Var}[y] &=\operatorname{Var}[g(\epsilon)] \\
&=\operatorname{Var}\left[w^{T} x+\epsilon\right] \\
&=\operatorname{Var}\left[w^{T} x\right]+\operatorname{Var}[\epsilon] \\
&=\sigma^{2}
\end{aligned}
$$
$$
y \sim \mathcal{N}\left(w^{T} x, \sigma^{2}\right)
$$
- 接着就可以通过最大似然估计来求解$\bf{w}$,首先定义对数似然函数:
$$
\begin{aligned} \ell(w) &=\log P(Y \mid X, w) \\ &=\log \prod_{i=1}^{n} P\left(y_{i} \mid x_{i}, w\right) \\ &=\log \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x\right)^{2}\right) \\ &=\log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\sum_{i}^{n}\left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x\right)^{2}\right) \end{aligned}
$$
$$
\begin{aligned} \hat{w} &=\arg \max _{w} \ell(w) \\ &=\arg \max _{w} \log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\sum_{i}^{n}\left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x_{i}\right)^{2}\right) \\ &=\arg \max _{w}-\frac{1}{2 \sigma} \sum_{i}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2} \\ &=\arg \min _{w} \sum_{i}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2} \\ &=\arg \min _{w} L(w) \end{aligned}
$$
- 此时得到的优化方程和最小二乘法得到的已经一样了,之后的求解过程也相同,
- 求解优化方程:
$$
\begin{aligned} \hat{w} &=\arg \max _{w} L(w) \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y+Y^{T} Y \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y \end{aligned}
$$
$$
\frac{\partial L(w)}{\partial w}=2 X^{T} X w-2 X^{T} Y=0
$$
$$
X^{T} X w=X^{T} Y \Rightarrow \hat{w}=\left(X^{T} X\right)^{-1} X^{T} Y
$$
参考资料
文章链接:
https://www.zywvvd.com/notes/study/math/regression/linear-regression-MLE/linear-regression-MLE/