本文最后更新于：2024年5月7日下午

SMV 被广泛用于数据二分类，在变种中也有做异常检测的应用，本文记录异常检测算法 OCSVM（One Class SVM）。

OCSMV 的思想

异常检测是工业领域或应对样本不均衡时的常用方法，训练异常检测模型时往往仅运用 1 类标签数据
在 SVM 下实现异常检测时也是仅有一类数据，The Support Vector Method For Novelty Detection by Schölkopf et al. 基本上将所有的数据点与零点在特征空间 F 分离开，并且最大化分离超平面到零点的距离。实现的思路是找到一个超平面将所有样本都放在一侧，同时让这个平面距离原点的距离更远
也就是找到一个相对于原点来说最“紧致”的平面
在测试数据时，在平面远离原点一侧的数据我们认为是同类数据，反之出现在靠近原点一侧的数据则认为是异常数据

优化目标由来

论文描述的优化目标

在论文中，直接给出了 OCSVM 的优化目标：

$$ \begin{array}{c} \min _{w, \zeta_{i}, \rho} \frac{1}{2}\|w\|^{2}+\frac{1}{\nu n} \sum_{i=1}^{n} \zeta_{i}-\rho \\ s.t. \left(w^{T} \phi\left(x_{i}\right)\right)>\rho-\zeta_{i}, i=1, \ldots, n \\ \zeta_{i}>0 \end{array} $$

其中 $ \zeta_{i} $ 表示松弛变量， $ \nu $ 类似于二分类SVM中的 $ C $，表示正则项系数，用于软 SMV 模型的训练，给训练数据中的异常留个余地
论文中并没有叙述这个公式是怎么来的，我按照自己对 SVM 和 OCSVM 的目标的理解尝试做了推导，如有不当烦请指正

直接根据定义推导优化目标

假设我们有 $n$ 个 $m$ 维数据 ${x_1,x_2, …,x_n},x\in R^m$，都是同一类数据，以此建立 One Class SVM 模型，如果我们暂时不加入松弛变量
SVM 模型框架不变，目标是寻找一个超平面，在此处我们将超平面方程表示为：

$$
f(x)=w^{T} x- \rho =0
$$

既然我们的目的是将现有数据和原点区分开，那么我们不妨假设现有数据标签为 1，那么对样本的约束为：

$$
w^Tx_i-\rho \geq0
$$

在满足约束的条件下我们的优化目标是使得原点到平面的几何间隔最大，根据我们已经知道的 SVM 的推导过程，几何间隔为：

$$
\gamma=\frac{f(x)}{||w||}
$$

几何间隔是分正负的，此时事实上分为两种情况：
- 如果该平面的位置无论如何都会将原点和数据分到平面的同一侧时，几何间隔非正，要使得几何间隔最大，需要拉近原点和平面的距离
- 如果平面可以将原点和数据分开，此时几何间隔为正，那么就要拉远原点和平面的距离
原点到屏幕的几何距离（几何间隔的绝对值）为：

$$
l=\frac{|f(0)|}{||w||}=\frac{|\rho|}{||w||}
$$

原点在平面的“数据侧”还是“数据的另一侧”取决于 $\rho$ 的符号：
- 当 $\rho > 0 $ 时：
  $$
  w^T0-\rho < 0
  $$
  此时原点和在“数据的另一侧”
- 当 $\rho \leq 0 $ 时：
  $$
  w^T0-\rho \geq 0
  $$
  此时原点和数据在一起，在“数据侧”
因此在约束条件下的 $l$，我们的优化目标也分情况讨论：
- 当 $\rho >0$，需要最大化平面到原点的距离，当前优化问题变为：
  $$ \begin{array}{c} \max \frac{\rho}{||w||}\\ s.t. w^Tx_i-\rho \geq0，i\in\{1,2,...,n\}\\ \rho >0 \end{array} $$
- $\rho \leq0$，需要最小化平面到原点的距离，当前优化问题变为：
  $$ \begin{array}{c} \max \frac{\rho}{||w||}\\ s.t. w^Tx_i-\rho \geq0，i\in\{1,2,...,n\}\\ \rho \leq 0 \end{array} $$
这是可以发现，两种情况下的优化目标事实上是相同的，那么我们可以合并两种情况，拿掉对 $\rho$ 的约束，得到原始的 OCSVM 优化目标：