线性回归 - MLE - 又见苍岚

本文最后更新于：2024年5月7日下午

本文记录极大似然估计角度进行线性回归，得到最小二乘法结果的方法。

问题描述

考虑一个线性模型 ${y}=f({\bf{x}})$

其中$y$是模型的输出值，是标量，$\bf{x}$为$d$维实数空间的向量

线性模型可以表示为:

$$
f(\bf{x})=\bf{w} ^Tx,w\in \mathbb{R}
$$

线性回归的任务是利用$n$个训练样本：

$$ X=\left[\begin{array}{lll}\bf{x}_{1} & \cdots & \bf{x}_{n}\end{array}\right]^{T}=\left[\begin{array}{c}\bf{x}_{1}^{T} \\ \vdots \\ \bf{x}_{n}^{T}\end{array}\right] \quad \bf{x} \in \mathbb{R} $$

和样本对应的标签：

$$
Y = [ y _ { 1 } \cdots \quad y _ { n } ] ^ { T } \quad y \in \mathbb{R}
$$

来预测线性模型中的参数 $\bf{\omega}$，使得模型尽可能准确输出预测值

线性回归 / MLE

最小二乘法的损失函数是启发式定义来的，我们从另一个角度进行线性回归

我们可以认为真实模型是带有噪声的，即：

$$
y=\bf{w}^Tx+\epsilon
$$

其中噪声分布为：

$$
\epsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)
$$

$ x $ 是给定的, $ w $ 虽然是未知的，但是也是固定的, 所以 $ w^{T} x $ 是一个常量, 因此 $ y $ 也可以看作是一个关于随机变量 $ \epsilon $ 的函数,

$$
y=g(\epsilon)
$$

估计$y$的均值:

$$ \begin{aligned} \mathbb{E}[y] &=\mathbb{E}[g(\epsilon)] \\ &=\mathbb{E}\left[w^{T} x+\epsilon\right] \\ &=\mathbb{E}\left[w^{T} x\right]+\mathbb{E}[\epsilon] \\ &=w^{T} x \end{aligned} $$

方差:

$$ \begin{aligned} \operatorname{Var}[y] &=\operatorname{Var}[g(\epsilon)] \\ &=\operatorname{Var}\left[w^{T} x+\epsilon\right] \\ &=\operatorname{Var}\left[w^{T} x\right]+\operatorname{Var}[\epsilon] \\ &=\sigma^{2} \end{aligned} $$

因此$y$的分布可以确定:

$$
y \sim \mathcal{N}\left(w^{T} x, \sigma^{2}\right)
$$

接着就可以通过最大似然估计来求解$\bf{w}$，首先定义对数似然函数:

$$ \begin{aligned} \ell(w) &=\log P(Y \mid X, w) \\ &=\log \prod_{i=1}^{n} P\left(y_{i} \mid x_{i}, w\right) \\ &=\log \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x\right)^{2}\right) \\ &=\log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\sum_{i}^{n}\left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x\right)^{2}\right) \end{aligned} $$

求解最优值：

$$ \begin{aligned} \hat{w} &=\arg \max _{w} \ell(w) \\ &=\arg \max _{w} \log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\sum_{i}^{n}\left(-\frac{1}{2 \sigma}\left(y_{i}-w^{T} x_{i}\right)^{2}\right) \\ &=\arg \max _{w}-\frac{1}{2 \sigma} \sum_{i}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2} \\ &=\arg \min _{w} \sum_{i}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2} \\ &=\arg \min _{w} L(w) \end{aligned} $$

此时得到的优化方程和最小二乘法得到的已经一样了，之后的求解过程也相同，
求解优化方程：

$$ \begin{aligned} \hat{w} &=\arg \max _{w} L(w) \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y+Y^{T} Y \\ &=\arg \max _{w} w^{T} X^{T} X w-2 w^{T} X^{T} Y \end{aligned} $$