本文最后更新于:2024年5月7日 下午

本文记录岭回归角度进行线性回归的方法。

问题描述

考虑一个线性模型 ${y}=f({\bf{x}})$

其中$y$是模型的输出值,是标量,$\bf{x}$为$d$维实数空间的向量

  • 线性模型可以表示为:

$$
f(\bf{x})=\bf{w} ^Tx,w\in \mathbb{R}
$$

  • 线性回归的任务是利用$n$个训练样本:
$$ X=\left[\begin{array}{lll}\bf{x}_{1} & \cdots & \bf{x}_{n}\end{array}\right]^{T}=\left[\begin{array}{c}\bf{x}_{1}^{T} \\ \vdots \\ \bf{x}_{n}^{T}\end{array}\right] \quad \bf{x} \in \mathbb{R} $$
  • 和样本对应的标签:

$$
Y = [ y _ { 1 } \cdots \quad y _ { n } ] ^ { T } \quad y \in \mathbb{R}
$$

  • 来预测线性模型中的参数 $\bf{\omega}$,使得模型尽可能准确输出预测值

线性回归 / 岭回归

岭回归就是带有$L_2$正则的线性回归>

  • 之前最小二乘法的损失函数:
$$ L(w)= w^{T} X^{T^{\prime}} X w-2 w^{T} X^{T} Y+Y^{T} Y $$
  • 岭回归的代价函数:
$$ \begin{aligned} J(w) &=L(w)+\lambda w^{T} w \\ &=w^{T} X^{T} X w-2 w^{T} X^{T} Y+Y^{T} Y+\lambda w^{T} w \\ &=w^{T}\left(X^{T} X+\lambda I\right) w-2 w^{T} X^{T} Y+Y^{T} Y \end{aligned} $$
  • 上式中 $ \lambda $ 是正则化系数,现在优化的目标就转为 $ J(w) $ 函数了

    $$ \begin{aligned} \hat{w} &=\arg \min _{w} J(w) \\ &=\arg \min _{w} w^{T}\left(X^{T} X+\lambda I\right) w-2 w^{T} X^{T} Y+Y^{T} Y \\ &=\arg \min _{w} w^{T}\left(X^{T} X+\lambda I\right) w-2 w^{T} X^{T} Y \end{aligned} $$
  • 对上面的函数求导并令导数为0, 得到
    $$
    \frac{\partial J(w)}{\partial w}=2\left(X^{T} X+\lambda I\right) w-2 X^{T} Y=0
    $$

  • 从上式不难得到:
    $$
    \hat{w}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} Y
    $$

  • 要更直观的理解 $ \lambda $ 的作用, 可以假设每个样本只有一个属性, $ \quad X^{T} X $ 就是一个实数, 所以:

$$
\hat{w}=\frac{X^{T} Y}{X^{T} X+\lambda}, \quad \lambda>0
$$

可以看到,随着 $ \lambda $ 的增大, $ \quad \hat{w} $ 的值会渐渐减小, 对 $ \hat{w} $ 起到了抑制作用

参考资料



文章链接:
https://www.zywvvd.com/notes/study/math/regression/ridge-regression/ridge-regression/


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

线性回归 - 岭回归
https://www.zywvvd.com/notes/study/math/regression/ridge-regression/ridge-regression/
作者
Yiwei Zhang
发布于
2021年5月25日
许可协议