人工智能 — 特征选择、特征提取、PCA

最新推荐文章于 2026-05-01 11:11:11 发布

原创

最新推荐文章于 2026-05-01 11:11:11 发布 · 3.6k 阅读

·

28

·

标签

#人工智能 #机器学习 #算法

本文围绕特征选择、特征提取和PCA算法展开。特征选择是从N个特征选M个使准则函数最优，目的是降维等；特征提取通过属性关系得到新属性。PCA算法是常用降维技术，通过线性变换保留重要信息，介绍了其步骤、优缺点等，并给出鸢尾花实例。

目录

一、特征选择
二、特征提取
三、PCA 算法

一、特征选择

1、定义

从 N 个特征中选择其中 M（M<=N）个子特征，并且在 M 个子特征中，准则函数（实现目标）可以达到最优解。

卷积负责提取图像中的局部特征。

特征选择想要做的是：

选择尽可能少的子特征，模型的效果不会显著下降，并且结果的类别分布尽可能的接近真实的类别分布。

2、原因

在现实生活中，一个对象往往具有很多属性（以下称为特征），这些特征大致可以被分成三种主要的类型：

相关特征：对于学习任务（例如分类问题）有帮助，可以提升学习算法的效果。
无关特征：对于我们的算法没有任何帮助，不会给算法的效果带来任何提升。
冗余特征：不会对我们的算法带来新的信息，或者这种特征的信息可以由其它的特征推断出。

同一特征在不同业务场景下可以是不同类型的特征。

但是对于一个特定的学习算法来说，哪一个特征是有效的是未知的。因此，需要从所有特征中选择出对于学习算法有益的相关特征。

进行特征选择的主要目的：

降维（例如把100个特征减少为50个）

降低学习任务的难度

提升模型的效率

3、做法

特征选择主要包括四个过程：

生成过程：生成候选的特征子集。
评价函数：评价特征子集的好坏。
停止条件：决定什么时候该停止。
验证过程：特征子集是否有效。

在这里插入图片描述

4、生成过程

生成过程是一个搜索过程，这个过程主要有以下三个策略：

完全搜索：根据评价函数做完全搜索。完全搜索主要分为穷举搜索和非穷举搜索。
启发式搜索：根据一些启发式规则在每次迭代时，决定剩下的特征是应该被选择还是被拒绝。这种方法很简单并且速度很快。
随机搜索：每次迭代时会设置一些参数，参数的选择会影响特征选择的效果。由于会设置一些参数（例如最大迭代次数）。

5、停止条件

停止条件用来决定迭代过程什么时候停止，生成过程和评价函数可能会对于怎么选择停止条件产生影响。停止条件有以下四种选择：

达到预定义的最大迭代次数。
达到预定义的最大特征数。
增加（删除）任何特征不会产生更好的特征子集。
根据评价函数，产生最优特征子集。

二、特征提取

特征：常见的特征有边缘、角、区域等。

特征提取：是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间。

特征选择：是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。

目前图像特征的提取主要有两种方法：

传统的特征提取方法：基于图像本身的特征进行提取。
深度学习方法：基于样本自动训练出区分图像的特征分类器。

特征选择（feature selection）和特征提取（Feature extraction）都属于降维（Dimension reduction）。

三、PCA 算法

当我们处理高维数据时，往往存在冗余信息和噪声，这使得数据分析和模型训练变得更加困难。主成分分析（Principal Component Analysis，PCA）是一种常用的降维技术，通过线性变换将高维数据映射到低维空间，从而保留数据中最重要的信息。

原理

就是将数据从原始的空间中转换到新的特征空间中。

例如原始的空间是三维的 (x,y,z)，x、y、z 分别是原始空间的三个基，通过 PCA 算法，用新的坐标系 (a,b,c) 来表示原始的数据，那么 a、b、c 就是新的基，它们组成新的特征空间。

在新的特征空间中，可能所有的数据在 c 上的投影都接近于 0，即可以忽略，那么我们就可以直接用 (a,b) 来表示数据，这样数据就从三维的 (x,y,z) 降到了二维的 (a,b)。

步骤

1、对原始数据零均值化（中心化）。

2、求协方差矩阵。

3、对协方差矩阵求特征向量和特征值，这些特征向量组成了新的特征空间。

1、零均值化（中心化）

中心化即是指变量减去它的均值，使均值为0。

其实就是一个平移的过程，平移后使得所有数据的中心是(0,0)。

在这里插入图片描述

只有中心化数据之后，计算得到的方向才能比较好的“概括”原来的数据。此图形象的表述了，中心化的几何意义，就是将样本集的中心平移到坐标系的原点O上。

在这里插入图片描述

2、方差

对于一组数据，如果它在某一坐标轴上的方差越大，说明坐标点越分散，该属性能够比较好的反映源数据。

$s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}$

PCA 算法的优化目标：

降维后同一维度的方差最大。

不同维度之间的相关性为 0。

3、协方差

协方差就是一种用来度量两个随机变量关系的统计量。

同一元素的协方差就表示该元素的方差，不同元素之间的协方差就表示它们的相关性。
$\text{Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}$
协方差的性质：

1、Cov(X,Y) = Cov(Y,X)

2、Cov(aX,bY) = abCov(Y,X) (a,b是常数)

3、Cov(X1+X2,Y) = Cov(X1,Y)+Cov(X2,Y)

$\text{由Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}和s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1} 可看出：\\ Cov(X,X)=D(X),Cov(Y,Y)=D(Y)\\ 同一元素的协方差等于方差D$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。