13-Anomaly Detection

本文介绍了一种用于检测异常数据的算法,重点讲解了高斯分布原理及其在异常检测中的应用。文章详细阐述了如何通过训练数据集计算参数,并利用这些参数判断新数据是否异常。此外,还探讨了异常检测与有监督学习的区别以及如何选择有效的特征。

1 - Problem Motivation 异常检测

通常用于 Unsupervised Learning 。

异常检测应用场景举例:

  • Fraud detection:欺骗检测
  • Manufacturing:制造业设备检测
  • Monitoring computers in a data center:数据中心计算机监控

2 - Gaussian Distribution 高斯(正态)分布

表达式如下:

p(x;μ,σ2)=12πσe(xμ)22σ2

其中 xR,μ,σ2
Gaussian Distribution

3 - Algorithm

3.1 基本思想
  • Training set:{x(1),x(2),,x(m)},x(i)Rn
  • feature:共有 n 个属性,都服从正态分布:
    x1N(μ1,σ21)x2N(μ2,σ22)xnN(μn,σ2n)
  • 评估方法:
    p(x)=p(x1;μ1,σ21)p(x2;μ2,σ22)p(xn;μn,σ2n)=Πnj=1p(xj;μj,σ)j
    p(x)越大,那么正常工作的可能性越大。当p(xtest)ϵ时,那么判定为异常
3.2 算法步骤
  • 选择能鉴别异常情况的属性 xi
  • 计算参数 μ1,,μn,σ21,,σ2n
    μj=1mi=1mx(i)jσ2j=1mi=1m(x(i)jμj)2
  • 给定新样本 x ,计算 p(x):
    p(x)=Πnj=1p(xj;μj,σ2j)=Πnj=112πσje(xjμj)22σ2j

    如果 p(x)<ϵ,那么就判定为异常
    Anomaly Detection example

4 - Developing and Evaluating an Anomaly Detection System

假设我们的训练集有标记过的数据,分为正常和异常两类(y=0正常,y=1异常)。

  • Training set:x(1),x(2),,x(m)
  • Cross validation set:(x(1)cv,y(1)cv),,(x(mcv)cv,y(mcv)cv)
  • Test set:(x(1)test,y(1)test),,(x(mtest)test,y(mtest)test)

算法评估:

  • True positive, false positive, false negative, true negative
  • Precision/Recall
  • F1-score

5 - Anomaly Detection vs. Supervised Learning 异常检测与有监督学习的比较

Anomally detection

  • Positive examples(y=1)的情况非常少
  • negative examples(y=1)的数据非常多
  • 异常的类型非常多。算法难以从极少的异常数据中进行学习。
  • 可能有从未见过的异常出现
  • 应用:
    • Fraud detection
    • Manufacturing
    • Monitor machines in data center

Supervised learning

  • Positive examples 和 negative examples 都非常多
  • 有足够的Positive examples来训练算法(Spam)
  • 应用:
    • Email Spam
    • Weather prediction
    • Cancer classification

6 - Choosing What Features to Use 如何选择属性

  • Non-gaussian features 对不服从高斯分布的属性进行处理,使其更接近高斯分布
    尝试:
    • log(x)
    • log(x+C)
    • x
    • x13
  • 选择有可能在异常出现情况下,它的值会不寻常的变大或变小的属性。

7 - Multivariate Gaussian Distribution (Optional)

8 - Anomaly Detection using the Multivariate Gaussian Distribution (Optional)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值