在统计分析中,离群值(outlier),也称逸出值,是指在数据中有一个或几个数值与其他数值相比差异较大。处理离群值的时候要结合专业知识,判断是否属于逻辑错误。本文仅介绍在统计学上常用的Tukey法。
Tukey法方法通过计算参考值的25%分位数(Q1)、75%分位数(Q3)和四分位间距IQR(Q3-Q1),将分布在Q1-1.5×(IQR)至Q3+1.5×(IQR)之间的参考值定义为可接受数值,否则即为离群值(如下图所示)。当数据满足正态分布时,预计识别0.7%的数值为离群值。

在剔除离群值之前,首先分析各项指标检测值是否服从正态分布,如果服从正态分布,直接采用Tukey法进行离群值查找。如果不服从正态分布,则需要采用Box-Cox法进行数据变换,使其服从正态分布,Box-Cox变换的公式如下所示:

其中X为原始值,y为Box-Cox变换后的值;λ和c为最大似然估计的参数。
笔者将boxcox变换、tukey方法实施、数据前后箱型图检测打包为如下函数:
tukey<-function
文章介绍了统计分析中的离群值识别,重点讲述了Tukey方法,该方法通过25%分位数、75%分位数和四分位间距IQR来确定离群值。当数据符合正态分布时,Tukey法能有效识别出约0.7%的离群值。在实际应用中,如果数据不服从正态分布,会先用Box-Cox变换使之符合正态分布,然后进行离群值检测。作者提供了一个结合Box-Cox变换和Tukey方法的R语言实现,并在pcb数据集上展示了应用案例,共找出3个离群值。
订阅专栏 解锁全文



570

被折叠的 条评论
为什么被折叠?



