拉格朗日乘数法

本文最后更新于:2022年7月6日 下午

在数学最优问题中,拉格朗日乘数法(以数学家约瑟夫·路易斯·拉格朗日命名)是一种寻找变量受一个或多个条件所限制的多元函数极值的方法。这种方法将一个有n 个变量与k 个约束条件最优化问题转换为一个有n + k个变量的方程组的极值问题,其变量不受任何约束。本文介绍拉格朗日乘数法(Lagrange multiplier)。

概述

  • 我们擅长解决的是无约束极值求解问题,这类问题仅需对所有变量求偏导,使得所有偏导数为0,即可找到所有极值点和鞍点。我们解决带约束条件的问题时便会尝试将其转化为无约束优化问题

  • 事实上如果我们可以通过g得到某个变量的表示,例如$x_1 = h(x_2, …, x_n)$,将该式带入$y$即可抓换为无约束优化(初高中就是这么做的,所谓消元法是也),但有的时候我们无法得到这样的表示,便需要借助拉格朗日乘数法来避免消元法的困境。

作为一种优化算法,拉格朗日乘数法主要用于解决约束优化问题,它的基本思想就是通过引入拉格朗日乘子来将含有$n$个变量和$k个$约束条件的约束优化问题转化为含有$(n+k)$个变量的无约束优化问题。拉格朗日乘子背后的数学意义是其为约束方程梯度线性组合中每个向量的系数。

思想

  • 考虑二元函数$f(x,y)$,在约束$g(x,y)=c$下的极值
  • 首先我们可以绘制出$f(x,y)$的一层层等高线,当等高线与$g(x,y)=c$相切时即可能是该问题的极值点

拉格朗日乘数法示意图(转自知乎)

拉格朗日乘数法

单个等式约束

考虑$n$元函数$y=f(x_1, x_2,…,x_n)$,在等式约束$g(x_1, x_2,…,x_n)=0$ 下的极值点求解问题

  • 在极值点,必有$y$和$g$法向量平行
  • $y$的法向量为:
$$ [\frac{{\partial y}}{{\partial {x_1}}},\frac{{\partial y}}{{\partial {x_2}}},...,\frac{{\partial y}}{{\partial {x_n}}}] $$
  • $g$的法向量为:
$$ [\frac{{\partial g}}{{\partial {x_1}}},\frac{{\partial g}}{{\partial {x_2}}},...,\frac{{\partial g}}{{\partial {x_n}}}] $$
  • 二者平行,则存在常数$\lambda$使得:
$$ [\frac{{\partial y}}{{\partial {x_1}}},\frac{{\partial y}}{{\partial {x_2}}},...,\frac{{\partial y}}{{\partial {x_n}}}] + \lambda [\frac{{\partial g}}{{\partial {x_1}}},\frac{{\partial g}}{{\partial {x_2}}},...,\frac{{\partial g}}{{\partial {x_n}}}] = 0 $$
  • 即:
$$ \frac{{\partial y}}{{\partial {x_i}}} + \lambda \frac{{\partial g}}{{\partial {x_i}}} = 0,1 \le i \le n $$
  • 这样我们就得到了$n$个等式方程,再加上$g(x_1, x_2,…,x_n)=0$一起构成$n+1$个方程的方程组,未知数为$[x_1,x_2,…,x_n,\lambda]$共$n+1$个,方程组的解即为所有极值点和鞍点的集合,每组解中的$\lambda$即为两个平行法向量的倍数,该值在等式约束轨迹穿过$y$的极值点时为0。

多个等式约束

原理与单个等式约束情况类似

考虑$n$元函数$y=f(x_1, x_2,…,x_n)$,在$m$个等式约束($g_i(x_1, x_2,…,x_n)=0, 1 \le i \le m$) 下的极值点求解问题

  • $n$维空间由$m$个条件约束,会确定一个$n-m$维的曲面,我们讨论$y$在这个曲面上的极值问题
  • 这个曲面由$m$个$n-1$维曲面交织而成,存在$m$个法向量,这$m$个法向量构成了$n-m$维曲面的法空间
  • 在问题的极值点,$y$的法向量必然落在$n-m$维曲面的法空间之内,也就是说$y$的法向量可以由$n-m$维曲面的$m$个法向量的线性组合表示:
$$ [\frac{{\partial y}}{{\partial {x_1}}},\frac{{\partial y}}{{\partial {x_2}}},...,\frac{{\partial y}}{{\partial {x_n}}}] + \sum\limits_{i = 1}^m {{\lambda _i}[\frac{{\partial {g_i}}}{{\partial {x_1}}},\frac{{\partial {g_i}}}{{\partial {x_2}}},...,\frac{{\partial {g_i}}}{{\partial {x_n}}}]} = 0 $$
  • 即:
$$ \frac{{\partial y}}{{\partial {x_j}}} + \sum\limits_{i = 1}^m {{\lambda _i}\frac{{\partial {g_i}}}{{\partial {x_j}}}} = 0,1 \le j \le n $$
  • 此时我们得到了$n$个等式方程,再加上$m$个等式约束($g_i(x_1, x_2,…,x_n)=0, 1 \le i \le m$) 一起构成$n+m$个方程的方程组,未知数为$[x_1,x_2,…,x_n,\lambda_1,\lambda_2,…,\lambda_m]$共$n+m$个,方程组的解即为所有极值点和鞍点的集合,每组解中的$\lambda_i$的值即为$y$的法向量在$n-m$维曲面的法空间中的线性组合系数。

单个不等式约束

不等式约束其实是等式约束的扩展,等式约束表示一组确定的等高线(面),不等式约束则表示等高线(面)的某一边区域

考虑$n$元函数$y=f(x_1, x_2,…,x_n)$,在不等式约束$g(x_1, x_2,…,x_n) \le 0$ 下的极值点求解问题

  • 若该问题有解,那么有两种情况
  1. 解在 $g(x_1, x_2,…,x_n) = 0$ 曲面上
  2. 解在$g(x_1, x_2,…,x_n) < 0$ 范围内
  • 当解在 $g(x_1, x_2,…,x_n) = 0$ 曲面上时,说明该不等式对$y$取最小值的区域进行了限制,最终解落在了$y$和约束相切的位置,那么此时二者的法向量方向必然相反(否则$y$会在$g(x_1, x_2,…,x_n) < 0$ 范围内找到更小的值),按照等式情况构建方程:
$$ \frac{{\partial y}}{{\partial {x_i}}} + \lambda \frac{{\partial g}}{{\partial {x_i}}} = 0,1 \le i \le n $$
  • 便有结论:$\lambda \ge 0$

  • 当解在$g(x_1, x_2,…,x_n) < 0$ 范围内时,事实上这个不等式没有对$y$的求解起到约束作用,此时相当于$\lambda = 0$

  • 而且两种情况下分别有 $g(x_1, x_2,…,x_n) = 0$和$\lambda = 0$,也就是二者必有一方为0

  • 因此对于单个不等式约束的拉格朗日乘数法,仅需增加限制条件: $\lambda \ge 0$和$\lambda g(x_1, x_2,…,x_n) = 0$

多个不等式约束

考虑$n$元函数$y=f(x_1, x_2,…,x_n)$,在$m$个不等式约束($g_i(x_1, x_2,…,x_n)\le0, 1 \le i \le m$) 下的极值点求解问题

  • 本质上与单个不等式约束相同,只是数量变多了
  • 此情况下需要在等式拉格朗日乘数法基础上增加条件:
$$ \begin{aligned} \lambda_i &\ge 0,1 \le i \le m\\ \lambda_ig_i &= 0,1 \le i \le m \end{aligned} $$

算法描述

  • 基于上述原理,提出了拉格朗日乘数法:
  1. 考虑$n$元函数$y=f(x_1, x_2,…,x_n)$,在$m_1$个等式约束($g_i(x_1, x_2,…,x_n)=0, 1 \le i \le m_1$) 、$m_2$个不等式约束($h_j(x_1, x_2,…,x_n)\le0, 1 \le j \le m_2$) 下的极值点求解问题

  2. 加入常数$\lambda,\mu$构造方程:

$$ z = f({x_1},{x_2},...,{x_n}) + \sum\limits_{i = 1}^{{m_1}} {{\lambda _i}{g_i}({x_1},{x_2},...,{x_n})} + \sum\limits_{j = 1}^{{m_2}} {{\mu _j}{h_j}({x_1},{x_2},...,{x_n})} $$ 2. 对所有变量求偏导,并令导数为0: $$ \begin{aligned} \frac{{\partial z}}{{\partial {x_i}}} &= 0\\ \frac{{\partial y}}{{\partial {x_k}}} + \sum\limits_{i = 1}^{{m_1}} {{\lambda _i}\frac{{\partial g}}{{\partial {x_k}}}} + \sum\limits_{j = 1}^{{m_1}} {{\mu _j}\frac{{\partial h}}{{\partial {x_k}}}} {\rm{ }} &= 0 \end{aligned} $$

其中:$1 \le k \le n$

  1. 将上述$n$个方程与$m_1$个等式约束方程$g_i(x_1, x_2,…,x_n)=0, 1 \le i \le m_1$ 联立
  2. 将上述$n+m_1$个方程与$\mu_j h_j=0, 1 \le j \le m_2$联立,得到$n+m_1+m_2$个方程
  3. 加上限制条件$\mu_j \ge 0$,$h_j \le 0$$, 1 \le j \le m_2$
  4. 在限制条件下解$n+m_1+m_2$元方程即可得到极值点与鞍点集合
  5. 从所有解中筛选出极值点

KKT条件

  • 上述$n+m_1+m_2$元方程与限制条件即为KKT条件
  • KKT条件是拉格朗日函数取极值时的必要条件
$$ \left\{\begin{array}{l} \nabla f+\sum_{i}^{m_1} \lambda_{i} \nabla g_{i}+\sum_{j}^{m_2} \mu_{j} \nabla h_{j}=0 \\ g_{i}=0, \\ h_{j} \leq 0, \\ \mu_{j} \geq 0, \\ \mu_{j} h_{j}=0\\ \end{array}\right. $$

其中 $i \in { 1,2, \cdots, m_1}$ ,$j \in { 1,2, \cdots, m_2}$

  • 总结一下所有条件的含义:
内容 含义
$\nabla f+\sum_{i}^{m_1} \lambda_{i} \nabla g_{i}+\sum_{j}^{m_2} \mu_{j} \nabla h_{j}=0$ 求解极值需要在各个自变量方向上导数为0
$g_{i}=0$ 等式约束
$h_{j} \le 0$ 不等式约束
$\mu_{j} \geq 0$ 不等式约束时的两种情况:
1. 不等式约束无效($\mu_{j} = 0$)
2. 不等式分界面法向量与原函数法向量方向相反($\mu_{j} > 0$)
$\mu_{j} h_{j}=0$ 不等式约束时的两种情况:
1. 不等式约束无效,极值点在$h_{j} < 0$范围内 ($\mu_{j} = 0$)
2. 不等式约束有效,极值点在$h_{j} = 0$曲面上($h_{j} = 0$)

参考资料


拉格朗日乘数法
https://www.zywvvd.com/notes/study/machine-learning/lagrange-multiplier/lagrange-multiplier/
作者
Yiwei Zhang
发布于
2021年3月13日
许可协议