主成分与因子分析:原理、应用与优化策略
1. 主成分分析基础
主成分分析(PCA)是一种重要的数据降维技术。在PCA中,$E[·]$ 表示期望值,$′$ 表示矩阵或向量的转置。在定义协方差矩阵 $\Sigma_x$ 时,通常假设数据的均值为零。在实际应用中,需要使用从数据样本中得到的 $\Sigma_x$ 的估计值。样本协方差矩阵 $\hat{\Sigma} x$ 的计算公式为:
$\hat{\Sigma}_x = \frac{1}{N - 1} \sum {i = 1}^{N} (x_i - \bar{x})(x_i - \bar{x})’$
其中,$\bar{x}$ 是 $N$ 个 $x$ 观测值的样本平均值。
设 ${z_i: i = 1, 2, …, n}$ 是 $\Sigma_x$ 的一组正交特征向量,${\epsilon_i: i = 1, 2, …, n}$ 是对应的特征值,且按降序排列。令 $Z = [z_1, z_2, …, z_n]$ 是由特征向量构成的 $n × n$ 正交矩阵,$\Lambda = diag{\epsilon_1, \epsilon_2, …, \epsilon_n}$ 是由特征值构成的 $n × n$ 对角矩阵。定义 $n × 1$ 向量 $u = Z’x$,即 $u$ 的第 $i$ 个元素是 $u_i = z_i’x$。由于 $u = Z’x$ 且 $Z$ 是正交矩阵,$x$ 可以表示为:
$x = Zu = \sum_{i = 1}^{n} z_i u_i$
$x$ 沿着特征向量 $z_i$ 方向的分量 $u_i$ 被称为 $x$ 的第 $i$ 个主成分。主成分 ${u_i: i =
超级会员免费看
订阅专栏 解锁全文

926

被折叠的 条评论
为什么被折叠?



