机器学习实战：Scikit-learn四大异常检测算法（IsolationForest、LocalOutlierFactor、OneClassSVM、EllipticEnvelope）（十四）

最新推荐文章于 2025-03-19 10:23:50 发布

原创最新推荐文章于 2025-03-19 10:23:50 发布 · 1.4k 阅读

26 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #scikit-learn #算法

Scikit-learn 专栏收录该内容

15 篇文章

订阅专栏

一、Isolation Forest（孤立森林）

1.1 算法核心思想

通过构建随机二叉树快速隔离异常点，异常值因特征差异显著而更易被隔离。算法核心在于计算路径长度（Path Length）作为异常得分依据。

数学原理

特征随机选择：每次随机选择一个特征和分割值
路径长度计算：样本从根节点到叶子节点经过的边数
异常得分公式：
$2^{-\frac{E(h(x))}{c(n)}}$
其中 $\frac{2(n-1)}{n}$ ， $\ln(k) + 0.5772$ （欧拉常数）

当 $\to 1$ 时为异常点， $\to 0$ 为正常点。

1.2 关键参数详解

IsolationForest(
    n_estimators=200,    # 树的数量，增加可提升稳定性
    max_samples=256,     # 每棵树的样本量，推荐≤256
    contamination=0.05,  # 异常比例估计，需结合实际调整
    max_features=0.8,    # 特征采样比例，处理高维数据时调低
    bootstrap=False,     # 是否放回采样
    random_state=42
)

1.3 实战案例：信用卡欺诈检测

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 加载信用卡数据集（假设已预处理）
data = pd.read_csv('creditcard.csv')
X = data.drop('Class', axis=1)
y = data['Class']

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)

# 训练模型
clf = IsolationForest(n_estimators=200, contamination=0.02, random_state=42)
clf.fit(X_train)
y_pred = clf.predict(X_test)
y_pred = np.where(y_pred == -1, 1, 0)  # 转换标签

# 评估
print(classification_report(y_test, y_pred))

输出结果示例：

              precision   recall  f1-score   support
           0       1.00      0.98      0.99     56864
           1       0.14      0.90      0.25        98

二、Local Outlier Factor（局部离群因子）

2.1 密度检测原理

通过比较样本点与k近邻的局部密度差异识别异常点，适用于密度不均匀的数据集。

关键公式推导

k-距离：点 ( x ) 到第k近邻的距离
可达距离：
$reach-distk(x,o)=max⁡(k-distance(o),d(x,o))\text{reach-dist}_k(x, o) = \max(\text{k-distance}(o), d(x, o))$
局部可达密度（LRD）：
$lrdk(x)=1/(∑o∈Nk(x)reach-distk(x,o)∣Nk(x)∣)\text{lrd}_k(x) = 1 / \left( \frac{\sum_{o \in N_k(x)} \text{reach-dist}_k(x, o)}{|N_k(x)|} \right)$
LOF值：
$LOFk(x)=∑o∈Nk(x)lrd(o)lrd(x)⋅∣Nk(x)∣\text{LOF}_k(x) = \frac{\sum_{o \in N_k(x)} \text{lrd}(o)}{\text{lrd}(x) \cdot |N_k(x)|}$

当 LOF > 1 时判定为异常点。

2.2 参数调优指南

LocalOutlierFactor(
    n_neighbors=20,        # 关键参数！通常取数据量的1%-5%
    algorithm='auto',      # 'ball_tree'/'kd_tree'/'brute'
    leaf_size=30,          # 影响树构建效率
    metric='minkowski',   # 支持自定义距离函数
    contamination=0.1      # 需与业务场景对齐
)

2.3 工业质检应用

from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import LocalOutlierFactor

# 加载传感器数据集
X = np.loadtxt('sensor_data.csv', delimiter=',')

# 标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 训练模型
lof = LocalOutlierFactor(n_neighbors=15, contamination=0.05)
y_pred = lof.fit_predict(X_scaled)

# 可视化三维分布
fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X[:,0], X[:,1], X[:,2], c=y_pred, cmap='coolwarm')
ax.set_title('LOF异常检测结果（三维传感器数据）')

三、One-Class SVM（单类支持向量机）

3.1 核方法原理

通过核函数将数据映射到高维空间，寻找最优超平面最大化与原点间隔。

优化目标

$min⁡w,ξ,ρ12∥w∥2+1νn∑i=1nξi−ρ\min_{w,\xi,\rho} \frac{1}{2}\|w\|^2 + \frac{1}{\nu n}\sum_{i=1}^n \xi_i - \rho$
约束条件：
$\cdot \phi(x_i) \geq \rho - \xi_i$
$ξi≥0\xi_i \geq 0$

其中 $ν∈(0,1]\nu \in (0,1]$ 控制异常比例上限。

3.2 核函数选择策略

核类型	适用场景	复杂度	参数说明
RBF	非线性数据	高	gamma=1/(n_features * X.var())
Linear	线性可分	低	无需gamma参数
Poly	周期性数据	中	需调优degree参数

3.3 网络入侵检测实战

from sklearn.svm import OneClassSVM
from sklearn.decomposition import PCA

# 加载KDDCup99数据集
X = load_kddcup99()

# 降维处理
pca = PCA(n_components=20)
X_pca = pca.fit_transform(X)

# 模型训练
ocsvm = OneClassSVM(kernel='rbf', gamma=0.1, nu=0.03)
ocsvm.fit(X_pca)

# 决策函数可视化
scores = ocsvm.decision_function(X_pca)
plt.hist(scores, bins=50)
plt.axvline(np.percentile(scores, 3), color='r')  # 设置3%异常阈值

四、Elliptic Envelope（高斯分布检测）

4.1 马氏距离原理

假设数据服从多元高斯分布，计算马氏距离检测偏离分布中心的异常点。

马氏距离公式

$\sqrt{(x - \mu)\Sigma^{-1}(x - \mu)^T}$
其中 $μ\mu$ 为均值向量， $Σ\Sigma$ 为协方差矩阵。

4.2 鲁棒性优化

通过最小化协方差行列式实现鲁棒估计：
$min⁡μ,Σdet⁡(Σ)\min_{\mu, \Sigma} \det(\Sigma)$
$s.t.∑i=1n(xi−μ)Σ−1(xi−μ)T≤χp,0.9752\text{s.t.} \sum_{i=1}^n (x_i - \mu)\Sigma^{-1}(x_i - \mu)^T \leq \chi^2_{p,0.975}$

4.3 医学异常检测

from sklearn.covariance import EllipticEnvelope

# 加载医学检测指标数据
X = load_medical_data()

# 鲁棒协方差估计
robust_cov = EllipticEnvelope(contamination=0.02, 
                            store_precision=True,
                            assume_centered=False)
robust_cov.fit(X)

# 计算马氏距离
mahalanobis_dist = robust_cov.mahalanobis(X)

# 绘制Q-Q图
import scipy.stats as stats
stats.probplot(mahalanobis_dist, dist="chi2", sparams=(X.shape[1],), plot=plt)

五、算法对比与工程选型

5.1 性能对比矩阵

指标	IsolationForest	LOF	OneClassSVM	EllipticEnvelope
时间复杂度	O(n)	O(n²)	O(n³)	O(n²)
内存消耗	低	高	中	中
高维数据处理	优	差	良	差
密度变化适应性	良	优	中	差
参数敏感性	低	高	高	中

5.2 选型建议

数据量 > 10万：优先选择Isolation Forest
局部密度变化大：使用LOF
需要概率输出：Elliptic Envelope
高维非线性数据：OneClassSVM with RBF kernel

六、进阶技巧与陷阱规避

6.1 混合检测策略

# 集成多个检测器
from sklearn.ensemble import VotingClassifier

models = [
    ('iso', IsolationForest(contamination=0.05)),
    ('lof', LocalOutlierFactor(n_neighbors=20)),
    ('svm', OneClassSVM(nu=0.05))
]

ensemble = VotingClassifier(estimators=models, voting='soft')

6.2 常见陷阱

数据未标准化：影响SVM和Elliptic Envelope效果
contamination设置不当：建议通过业务经验或半监督方法确定
高维灾难：使用PCA/TSNE降维处理
样本不均衡：采用SMOTE等过采样技术

七、创新应用：新颖性发现（Novelty Detection）

7.1 与异常检测的区别

训练数据：新颖性检测要求训练集仅含正常样本
应用阶段：异常检测可包含训练时未见样本

7.2 实现方法

# 使用OneClassSVM实现新颖性检测
X_train = X[y == 0]  # 仅使用正常样本训练

ocsvm = OneClassSVM(kernel='rbf', nu=0.01)
ocsvm.fit(X_train)

# 检测新样本
new_samples = np.array([[5.1, 3.5, 1.4, 0.2]])
predictions = ocsvm.predict(new_samples)  # -1表示新颖点