文章目录
孤立森林算法详解
1. 算法概述
孤立森林(Isolation Forest) 是一种高效的无监督异常检测算法,特别适用于处理高维和大规模数据集。其核心思想是:异常点(Outliers)与正常点相比,更容易被“孤立”(Isolate)。通过构建多棵随机树(Isolation Tree),算法利用异常点在树中路径较短的特点,快速识别出异常。
2. 算法原理与步骤
2.1 核心思想
- 异常点的特性:异常点在特征空间中通常稀疏且远离正常点,因此只需较少的分割次数即可被隔离。
- 路径长度:从根节点到叶子节点的边数。异常点的路径长度较短,正常点较长。
2.2 算法流程
-
构建孤立树(iTree):
- 随机选择特征:每棵树随机选择一个特征。
- 随机选择分割点:在该特征的取值范围内随机选择一个值,将数据分为左右子树。
- 递归分割:重复上述过程,直到:
- 数据点被完全孤立(每个点单独
订阅专栏 解锁全文


&spm=1001.2101.3001.5002&articleId=146279923&d=1&t=3&u=8722880affdc419385353b804fb21d81)
3000

被折叠的 条评论
为什么被折叠?



