基于粗糙集理论的离群点检测
1. 引言
离群点检测在许多领域都具有重要意义,如信用欺诈检测和网络入侵检测等。传统的离群点检测方法存在一定局限性,例如在处理大规模、多字段且分布复杂的真实世界数据库时,基于单变量数据和已知分布的统计方法以及基于距离的非参数方法都面临挑战。本文提出利用粗糙集理论进行离群点检测,旨在开发一种新的离群点定义和检测方法。
粗糙集理论是由Z. Pawlak提出的集合理论的扩展,用于研究信息不充分和不完整的智能系统。其核心思想是,对于宇宙中的每个对象,都有与之相关的一定量信息,通过一些用于对象描述的属性来表达。具有相同描述的对象在可用信息下是不可区分的。
在本文的方法中,如果一个对象在给定的一组等价关系下,总是位于粗糙集的边界区域,那么就认为该对象是离群点。边界区域的元素不能根据可用信息确定是否属于某个集合,因此其信息是不一致或模糊的。
2. 预备知识
- 近似空间 :设$U$表示一个有限非空集合,称为宇宙,$\theta \subseteq U \times U$表示$U$上的一个等价关系。则对$(U, \theta)$称为近似空间。等价关系$\theta$将集合$U$划分为不相交的子集,记为$U/\theta$。如果$U$中的两个元素$x$和$y$属于同一个等价类,则称$x$和$y$是不可区分的。$\theta$的等价类和空集$\varnothing$称为近似空间中的基本或原子集。
- 粗糙集 :对于任意集合$X \subseteq U$,可能无法用$\theta$的等价类精确描述$X$。此时,可以用一对上下近
超级会员免费看
订阅专栏 解锁全文

1382

被折叠的 条评论
为什么被折叠?



