本文最后更新于:2024年1月14日 晚上

本文记录岭回归角度进行线性回归的方法。

问题描述

考虑一个线性模型 ${y}=f({\bf{x}})$

其中$y$是模型的输出值,是标量,$\bf{x}$为$d$维实数空间的向量

  • 线性模型可以表示为:

$$
f(\bf{x})=\bf{w} ^Tx,w\in \mathbb{R}
$$

  • 线性回归的任务是利用$n$个训练样本:
$$ X=\left[\begin{array}{lll}\bf{x}_{1} & \cdots & \bf{x}_{n}\end{array}\right]^{T}=\left[\begin{array}{c}\bf{x}_{1}^{T} \\ \vdots \\ \bf{x}_{n}^{T}\end{array}\right] \quad \bf{x} \in \mathbb{R} $$
  • 和样本对应的标签:

$$
Y = [ y _ { 1 } \cdots \quad y _ { n } ] ^ { T } \quad y \in \mathbb{R}
$$

  • 来预测线性模型中的参数 $\bf{\omega}$,使得模型尽可能准确输出预测值

线性回归 / MAP

岭回归就是带有$L_2$正则的线性回归,也可以从最大后验概率的角度推出

  • 根据贝叶斯公式

    $$ \begin{aligned} P(w \mid Y, X) &=\frac{P(Y, X, w)}{P(Y, X)} \\ &=\frac{P(Y \mid X, w) P(X \mid w) P(w)}{P(Y, X)} \\ & \propto P(Y \mid X, w) P(w) \end{aligned} $$
  • 其中 $ P(Y \mid X, w) $ 和 $ P(w) $ 分别是似然和先验, 并且$ y \mid x, w \sim \mathcal{N}\left(w^{T} x, \sigma^{2}\right) $,$ w \sim \mathcal{N}(0, \Sigma) $

  • 接着,其中第一项:

    $$ \begin{aligned} P(Y \mid X, w) &=\prod_{i=1}^{n} P\left(y_{i} \mid x_{i}, w\right) \\ &=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right) \\ &=\frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}} \prod_{i=1}^{n} \exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right) \end{aligned} $$
  • 第二项:

$$
P(w)=\frac{1}{\sqrt{2 \pi}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{w^{T} \Sigma^{-1} w}{2}\right)
$$

  • 然后对 $ P(Y \mid X, w) P(w) $ 取对数, 得到:
$$ \begin{array}{l} \log P(Y \mid X, w) P(w) \\ =\log \left(\frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}\left(\prod_{i=1}^{n} \exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right)\right) \cdot \frac{1}{\sqrt{2 \pi}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{w^{T} \Sigma^{-1} w}{2}\right)\right) \\ =\log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\log \frac{1}{\sqrt{2 \pi}|\Sigma|^{\frac{1}{2}}}-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2}-\frac{1}{2} w^{T} \Sigma^{-1} w \end{array} $$
  • 同样的套路, 针对对数函数求解最优参数
$$ \begin{array}{l} \hat{w}=\arg \max _{w} P(Y \mid X, w) P(w) \\ =\arg \max _{w} \log \frac{1}{(2 \pi)^{\frac{n}{2}} \sigma^{n}}+\log \frac{1}{\sqrt{2 \pi}|\Sigma|^{\frac{1}{2}}}-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2}-\frac{1}{2} w^{T} \Sigma^{-1} w \\ =\arg \min _{w} \frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2}+\frac{1}{2} w^{T} \Sigma^{-1} w \\ =\arg \min _{w} \sum_{i=1}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2}+w^{T}\left(\sigma^{2} \Sigma^{-1}\right) w \end{array} $$
  • 将上式看作损失函数
$$ \begin{aligned} L(w) &=\sum_{i=1}^{n}\left(y_{i}-w^{T} x_{i}\right)^{2}+w^{T}\left(\sigma^{2} \Sigma^{-1}\right) w \\ &=w^{T} X^{T} X w-2 w^{T} X^{T} Y+Y^{T} Y+w^{T}\left(\sigma^{2} \Sigma^{-1}\right) w \\ &=w^{T}\left(X^{T} X+\sigma^{2} \Sigma^{-1}\right) w-2 w^{T} X^{T} Y+Y^{T} Y \end{aligned} $$
  • 然后对其求导

$$
\frac{\partial L(w)}{\partial w}=2\left(X^{T} X+\sigma^{2} \Sigma^{-1}\right) w-2 X^{T} Y=0
$$

  • 得到:

$$
\hat{w}=\left(X^{T} X+\sigma^{2} \Sigma{-1}\right){-1} X^{T} Y
$$

  • 令 $ \sigma^{2} \Sigma^{-1}=\lambda $ 就得到了岭回归的结果

参考资料



文章链接:
https://www.zywvvd.com/notes/study/math/regression/ridge-regression-MAP/ridge-regression-map/


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

线性回归 - MAP
https://www.zywvvd.com/notes/study/math/regression/ridge-regression-MAP/ridge-regression-map/
作者
Yiwei Zhang
发布于
2021年5月25日
许可协议