人工智能 — 特征选择、特征提取、PCA

本文围绕特征选择、特征提取和PCA算法展开。特征选择是从N个特征选M个使准则函数最优,目的是降维等;特征提取通过属性关系得到新属性。PCA算法是常用降维技术,通过线性变换保留重要信息,介绍了其步骤、优缺点等,并给出鸢尾花实例。

一、特征选择

1、定义

从 N 个特征中选择其中 M(M<=N)个子特征,并且在 M 个子特征中,准则函数(实现目标)可以达到最优解。

卷积负责提取图像中的局部特征。

特征选择想要做的是:

选择尽可能少的子特征,模型的效果不会显著下降,并且结果的类别分布尽可能的接近真实的类别分布。

2、原因

在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以被分成三种主要的类型

  • 相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果。

  • 无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升。

  • 冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其它的特征推断出。

同一特征在不同业务场景下可以是不同类型的特征。

但是对于一个特定的学习算法来说,哪一个特征是有效的是未知的。因此,需要从所有特征中选择出对于学习算法有益的相关特征。

进行特征选择的主要目的

  • 降维(例如把100个特征减少为50个)
  • 降低学习任务的难度
  • 提升模型的效率

3、做法

特征选择主要包括四个过程

  • 生成过程:生成候选的特征子集。
  • 评价函数:评价特征子集的好坏。
  • 停止条件:决定什么时候该停止。
  • 验证过程:特征子集是否有效。

在这里插入图片描述

4、生成过程

生成过程是一个搜索过程,这个过程主要有以下三个策略

  • 完全搜索:根据评价函数做完全搜索。完全搜索主要分为穷举搜索和非穷举搜索。
  • 启发式搜索:根据一些启发式规则在每次迭代时,决定剩下的特征是应该被选择还是被拒绝。这种方法很简单并且速度很快。
  • 随机搜索:每次迭代时会设置一些参数,参数的选择会影响特征选择的效果。由于会设置一些参数(例如最大迭代次数)。

5、停止条件

停止条件用来决定迭代过程什么时候停止,生成过程和评价函数可能会对于怎么选择停止条件产生影响。停止条件有以下四种选择:

  • 达到预定义的最大迭代次数。
  • 达到预定义的最大特征数。
  • 增加(删除)任何特征不会产生更好的特征子集。
  • 根据评价函数,产生最优特征子集。

二、特征提取

特征:常见的特征有边缘、角、区域等。

特征提取:是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。

特征选择:是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。

目前图像特征的提取主要有两种方法

  • 传统的特征提取方法:基于图像本身的特征进行提取。
  • 深度学习方法:基于样本自动训练出区分图像的特征分类器。

特征选择(feature selection)和特征提取(Feature extraction)都属于降维(Dimension reduction)。

三、PCA 算法

当我们处理高维数据时,往往存在冗余信息和噪声,这使得数据分析和模型训练变得更加困难。主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术,通过线性变换将高维数据映射到低维空间,从而保留数据中最重要的信息。

原理

就是将数据从原始的空间中转换到新的特征空间中。

例如原始的空间是三维的 (x,y,z),x、y、z 分别是原始空间的三个基,通过 PCA 算法,用新的坐标系 (a,b,c) 来表示原始的数据,那么 a、b、c 就是新的基,它们组成新的特征空间。

在新的特征空间中,可能所有的数据在 c 上的投影都接近于 0,即可以忽略,那么我们就可以直接用 (a,b) 来表示数据,这样数据就从三维的 (x,y,z) 降到了二维的 (a,b)。

步骤

1、对原始数据零均值化(中心化)。

2、求协方差矩阵。

3、对协方差矩阵求特征向量和特征值,这些特征向量组成了新的特征空间。

1、零均值化(中心化)

中心化即是指变量减去它的均值,使均值为0。

其实就是一个平移的过程,平移后使得所有数据的中心是(0,0)。

在这里插入图片描述

只有中心化数据之后,计算得到的方向才能比较好的“概括”原来的数据。此图形象的表述了,中心化的几何意义,就是将样本集的中心平移到坐标系的原点O上。

在这里插入图片描述

2、方差

对于一组数据,如果它在某一坐标轴上的方差越大,说明坐标点越分散,该属性能够比较好的反映源数据。

s 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1} s2=n1i=1n(XiXˉ)2

PCA 算法的优化目标

  • 降维后同一维度的方差最大。

  • 不同维度之间的相关性为 0。

3、协方差

协方差就是一种用来度量两个随机变量关系的统计量。

同一元素的协方差就表示该元素的方差,不同元素之间的协方差就表示它们的相关性。
Cov ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 \text{Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} Cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)
协方差的性质:

1、Cov(X,Y) = Cov(Y,X)

2、Cov(aX,bY) = abCov(Y,X) (a,b是常数)

3、Cov(X1+X2,Y) = Cov(X1,Y)+Cov(X2,Y)

由Cov ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 和 s 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 可看出: C o v ( X , X ) = D ( X ) , C o v ( Y , Y ) = D ( Y ) 同一元素的协方差等于方差 D \text{由Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}和s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1} 可看出:\\ Cov(X,X)=D(X),Cov(Y,Y)=D(Y)\\ 同一元素的协方差等于方差D Cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)s2=n1i=1n(XiXˉ)2可看出:Cov(X,X)=D(X),

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值