目录
一、特征选择
1、定义
从 N 个特征中选择其中 M(M<=N)个子特征,并且在 M 个子特征中,准则函数(实现目标)可以达到最优解。
卷积负责提取图像中的局部特征。
特征选择想要做的是:
选择尽可能少的子特征,模型的效果不会显著下降,并且结果的类别分布尽可能的接近真实的类别分布。
2、原因
在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以被分成三种主要的类型:
-
相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果。
-
无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升。
-
冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其它的特征推断出。
同一特征在不同业务场景下可以是不同类型的特征。
但是对于一个特定的学习算法来说,哪一个特征是有效的是未知的。因此,需要从所有特征中选择出对于学习算法有益的相关特征。
进行特征选择的主要目的:
- 降维(例如把100个特征减少为50个)
- 降低学习任务的难度
- 提升模型的效率
3、做法
特征选择主要包括四个过程:
- 生成过程:生成候选的特征子集。
- 评价函数:评价特征子集的好坏。
- 停止条件:决定什么时候该停止。
- 验证过程:特征子集是否有效。

4、生成过程
生成过程是一个搜索过程,这个过程主要有以下三个策略:
- 完全搜索:根据评价函数做完全搜索。完全搜索主要分为穷举搜索和非穷举搜索。
- 启发式搜索:根据一些启发式规则在每次迭代时,决定剩下的特征是应该被选择还是被拒绝。这种方法很简单并且速度很快。
- 随机搜索:每次迭代时会设置一些参数,参数的选择会影响特征选择的效果。由于会设置一些参数(例如最大迭代次数)。
5、停止条件
停止条件用来决定迭代过程什么时候停止,生成过程和评价函数可能会对于怎么选择停止条件产生影响。停止条件有以下四种选择:
- 达到预定义的最大迭代次数。
- 达到预定义的最大特征数。
- 增加(删除)任何特征不会产生更好的特征子集。
- 根据评价函数,产生最优特征子集。
二、特征提取
特征:常见的特征有边缘、角、区域等。
特征提取:是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。
特征选择:是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。
目前图像特征的提取主要有两种方法:
- 传统的特征提取方法:基于图像本身的特征进行提取。
- 深度学习方法:基于样本自动训练出区分图像的特征分类器。
特征选择(feature selection)和特征提取(Feature extraction)都属于降维(Dimension reduction)。
三、PCA 算法
当我们处理高维数据时,往往存在冗余信息和噪声,这使得数据分析和模型训练变得更加困难。主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术,通过线性变换将高维数据映射到低维空间,从而保留数据中最重要的信息。
原理
就是将数据从原始的空间中转换到新的特征空间中。
例如原始的空间是三维的 (x,y,z),x、y、z 分别是原始空间的三个基,通过 PCA 算法,用新的坐标系 (a,b,c) 来表示原始的数据,那么 a、b、c 就是新的基,它们组成新的特征空间。
在新的特征空间中,可能所有的数据在 c 上的投影都接近于 0,即可以忽略,那么我们就可以直接用 (a,b) 来表示数据,这样数据就从三维的 (x,y,z) 降到了二维的 (a,b)。
步骤
1、对原始数据零均值化(中心化)。
2、求协方差矩阵。
3、对协方差矩阵求特征向量和特征值,这些特征向量组成了新的特征空间。
1、零均值化(中心化)
中心化即是指变量减去它的均值,使均值为0。
其实就是一个平移的过程,平移后使得所有数据的中心是(0,0)。

只有中心化数据之后,计算得到的方向才能比较好的“概括”原来的数据。此图形象的表述了,中心化的几何意义,就是将样本集的中心平移到坐标系的原点O上。

2、方差
对于一组数据,如果它在某一坐标轴上的方差越大,说明坐标点越分散,该属性能够比较好的反映源数据。
s 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1} s2=n−1∑i=1n(Xi−Xˉ)2
PCA 算法的优化目标:
降维后同一维度的方差最大。
不同维度之间的相关性为 0。
3、协方差
协方差就是一种用来度量两个随机变量关系的统计量。
同一元素的协方差就表示该元素的方差,不同元素之间的协方差就表示它们的相关性。
Cov ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 \text{Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} Cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)
协方差的性质:
1、Cov(X,Y) = Cov(Y,X)
2、Cov(aX,bY) = abCov(Y,X) (a,b是常数)
3、Cov(X1+X2,Y) = Cov(X1,Y)+Cov(X2,Y)
由Cov ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 和 s 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 可看出: C o v ( X , X ) = D ( X ) , C o v ( Y , Y ) = D ( Y ) 同一元素的协方差等于方差 D \text{由Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}和s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1} 可看出:\\ Cov(X,X)=D(X),Cov(Y,Y)=D(Y)\\ 同一元素的协方差等于方差D 由Cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)和s2=n−1∑i=1n(Xi−Xˉ)2可看出:Cov(X,X)=D(X),

本文围绕特征选择、特征提取和PCA算法展开。特征选择是从N个特征选M个使准则函数最优,目的是降维等;特征提取通过属性关系得到新属性。PCA算法是常用降维技术,通过线性变换保留重要信息,介绍了其步骤、优缺点等,并给出鸢尾花实例。

1万+

被折叠的 条评论
为什么被折叠?



