13-Anomaly Detection

最新推荐文章于 2026-05-14 09:09:38 发布

原创最新推荐文章于 2026-05-14 09:09:38 发布 · 891 阅读

本内容遵循CC 4.0 BY-SA版权协议

22 篇文章

订阅专栏

本文介绍了一种用于检测异常数据的算法，重点讲解了高斯分布原理及其在异常检测中的应用。文章详细阐述了如何通过训练数据集计算参数，并利用这些参数判断新数据是否异常。此外，还探讨了异常检测与有监督学习的区别以及如何选择有效的特征。

通常用于 Unsupervised Learning 。

异常检测应用场景举例：

表达式如下：

p (x; μ, σ 2) = 1 2 π - - \sqrt σ e - ( x - μ ) 2 2 σ 2

$p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
其中

x∈R,μ为平均值,σ2为方差 $x\in R,\mu 为平均值,\sigma^2为方差$
Gaussian Distribution

Training set： $\{ x^{(1)},x^{(2)},\dots,x^{(m)} \} ,x^{(i)} \in R^n$
feature：共有 n 个属性，都服从正态分布：
$x 1 \sim N (μ 1, σ 21) x 2 \sim N (μ 2, σ 22) ⋮ x n \sim N (μ n, σ 2 n)$ $x_1 \sim N(\mu_1,\sigma_1^2) \\ x_2 \sim N(\mu_2,\sigma_2^2) \\ \vdots \\ x_n \sim N(\mu_n,\sigma_n^2) \\$
评估方法：
$p(x) = p(x_1;\mu_1,\sigma_1^2)p(x_2;\mu_2,\sigma_2^2)\dots p(x_n;\mu_n,\sigma_n^2)=\Pi_{j=1}^n p(x_j;\mu_j,\sigma_j^)$
p(x)越大，那么正常工作的可能性越大。当 $p(x_{test})\leq \epsilon$ 时，那么判定为异常

选择能鉴别异常情况的属性 $x_i$
计算参数 $\mu_1,\dots,\mu_n,\sigma_1^2,\dots,\sigma_n^2$ ：
$μ j = 1 m \sum i = 1 m x (i) j σ 2 j = 1 m \sum i = 1 m (x (i) j - μ j) 2$ $\mu_j = \frac{1}{m}\sum\limits_{i=1}^m x_j^{(i)} \\ \sigma_j^2=\frac{1}{m}\sum\limits_{i=1}^m (x_j^{(i)} - \mu_j)^2$
给定新样本 x ，计算 p(x)：
$p (x) = Π n j = 1 p (x j; μ j, σ 2 j) = Π n j = 1 1 2 π - - \sqrt σ j e - ( x j - μ j ) 2 2 σ 2 j$ $p(x)=\Pi_{j=1}^n p(x_j;\mu_j,\sigma_j^2)= \Pi_{j=1}^n\frac{1}{\sqrt{2\pi}\sigma_j}e^{-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}}$
如果 $p(x) < \epsilon$ ，那么就判定为异常

假设我们的训练集有标记过的数据，分为正常和异常两类（y=0正常，y=1异常）。

Training set： $x^{(1)},x^{(2)},\dots,x^{(m)}$
Cross validation set： $(x_{cv}^{(1)},y_{cv}^{(1)}),\dots, (x_{cv}^{(m_{cv})},y_{cv}^{(m_{cv})})$
Test set： $(x_{test}^{(1)},y_{test}^{(1)}),\dots, (x_{test}^{(m_{test})},y_{test}^{(m_{test})})$