探索性数据分析中的数据转换与降维方法
在实际的数据处理中,原始数据往往并非处于最便于分析的形式。数据分析师常常需要对数据进行转换,以实现有效的可视化或更轻松、更有信息量的分析。本文将介绍数据转换的相关方法,包括幂变换、标准化和数据球化,以及线性降维方法,如主成分分析等。
1. 数据转换
在许多实际应用中,原始数据可能呈现出非线性、不对称性、包含异常值或在不同水平下具有不同的离散程度等问题。为了解决这些问题,我们可以对所有观测值应用单一的数学函数来转换数据。
1.1 幂变换
幂变换是一种可以改变数据分布形状的方法。对于一组数据点 (x_1, x_2, …, x_n),变换函数 (T) 将每个观测值 (x_i) 替换为新值 (T(x_i))。幂变换应具有以下理想特性:
1. 数据顺序保持 :变换后数据的顺序不变,基于顺序的统计量(如中位数)也得以保留。
2. 连续性 :变换函数是连续的,保证原始数据中接近的点在变换后仍然接近。
3. 平滑性 :变换函数具有各阶导数,并且可以用基本函数表示。
常见的幂变换包括取根(平方根、立方根等)、求倒数、计算对数以及将变量提升到正整数幂。这些变换为数据分析中的大多数情况提供了足够的灵活性。
示例 :以软件检查数据为例,数据呈现偏态,变量之间的关系难以理解。我们使用以下 MATLAB 代码对两个变量应用对数变换:
load so
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



