1 - Problem Motivation 异常检测
通常用于 Unsupervised Learning 。
异常检测应用场景举例:
- Fraud detection:欺骗检测
- Manufacturing:制造业设备检测
- Monitoring computers in a data center:数据中心计算机监控
2 - Gaussian Distribution 高斯(正态)分布
表达式如下:
p(x;μ,σ2)=12π−−√σe−(x−μ)22σ2
其中 x∈R,μ为平均值,σ2为方差
3 - Algorithm
3.1 基本思想
- Training set:{x(1),x(2),…,x(m)},x(i)∈Rn
- feature:共有 n 个属性,都服从正态分布:
x1∼N(μ1,σ21)x2∼N(μ2,σ22)⋮xn∼N(μn,σ2n) - 评估方法:
p(x)=p(x1;μ1,σ21)p(x2;μ2,σ22)…p(xn;μn,σ2n)=Πnj=1p(xj;μj,σ)j
p(x)越大,那么正常工作的可能性越大。当p(xtest)≤ϵ时,那么判定为异常
3.2 算法步骤
- 选择能鉴别异常情况的属性 xi
- 计算参数 μ1,…,μn,σ21,…,σ2n:
μj=1m∑i=1mx(i)jσ2j=1m∑i=1m(x(i)j−μj)2 - 给定新样本 x ,计算 p(x):
p(x)=Πnj=1p(xj;μj,σ2j)=Πnj=112π−−√σje−(xj−μj)22σ2j
如果 p(x)<ϵ,那么就判定为异常
4 - Developing and Evaluating an Anomaly Detection System
假设我们的训练集有标记过的数据,分为正常和异常两类(y=0正常,y=1异常)。
- Training set:x(1),x(2),…,x(m)
- Cross validation set:(x(1)cv,y(1)cv),…,(x(mcv)cv,y(mcv)cv)
- Test set:(x(1)test,y(1)test),…,(x(mtest)test,y(mtest)test)
算法评估:
- True positive, false positive, false negative, true negative
- Precision/Recall
- F1-score
5 - Anomaly Detection vs. Supervised Learning 异常检测与有监督学习的比较
Anomally detection:
- Positive examples(y=1)的情况非常少
- negative examples(y=1)的数据非常多
- 异常的类型非常多。算法难以从极少的异常数据中进行学习。
- 可能有从未见过的异常出现
- 应用:
- Fraud detection
- Manufacturing
- Monitor machines in data center
Supervised learning:
- Positive examples 和 negative examples 都非常多
- 有足够的Positive examples来训练算法(Spam)
- 应用:
- Email Spam
- Weather prediction
- Cancer classification
6 - Choosing What Features to Use 如何选择属性
- Non-gaussian features 对不服从高斯分布的属性进行处理,使其更接近高斯分布
尝试:
- log(x)
- log(x+C)
- x√
- x13
- …
- 选择有可能在异常出现情况下,它的值会不寻常的变大或变小的属性。
本文介绍了一种用于检测异常数据的算法,重点讲解了高斯分布原理及其在异常检测中的应用。文章详细阐述了如何通过训练数据集计算参数,并利用这些参数判断新数据是否异常。此外,还探讨了异常检测与有监督学习的区别以及如何选择有效的特征。

7141

被折叠的 条评论
为什么被折叠?



