特征提取和特征选择方法

一、特征提取和特征选择

1、特征选择和特征选择的区别
=特征选择和降维(特征提取)有些许的相似点=,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性的数目;但是两者所采用的方式方法却不同:
降维的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。

2、常用的特征选择方法
  • 特征发散:如果特征不发散,也就是说特征的方差趋近于0,则代表这个特征上不同样本之间没有差异性,对区分样本的作用基本不存在。
  • 特征与目标的相关性:所谓相关性,就是说特征和目标值之间存在正相关(随着目标值的变大特征值也逐渐变大)或者负相关的特性。代表了特征值和目标值之间具有很强的数据上的因果关系。
(1)过滤法(Filter)

过滤法就是按照发散性或者相关性对各个特征进行评分,设定阙值或者选择阙值的个数,完成特征选择。

①方差法:这种方法通过计算每个特征的均值和方差,设定一个基础阙值,当该维度的特征方差小于基础阙值时,则丢弃该特征。这种方法简单高效的过滤了一些地方差的特征,但是存在一个问题就是阙值的设定是一个先验条件,当设置过低时,保留了过多低效的特征,设置过高则丢弃了过多有用的特征。

②单变量特征选择:单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。单变量特征选择方法,独立的衡量每个特征与响应变量之间的关系。

③ 卡方检验:对于回归和分类问题可以采用卡方检验等方式对特征进行测试。(检验独立性)。
卡方检验通常用于检验两个变量间的独立性,在做特征选择时我们希望检验每个特征和类别之间的独立性,对于每个特征我们假设特征和类别相互独立。卡方值越大越偏离这个假设,说明特征和类别不相互独立是我们想要选择的特征,因此对卡方值从大到小进行排序,选择前k个。

④互信息法选择特征样例
互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

(2)包裹法(Wrapper)

包裹法就是选择特定算法,然后根据算法效果来选择特征集合。
就是通过不断的启发式方法来搜索特征,主要分为如下两类。
方法一:选择一些特征,逐步增加特征保证算法模型精度是否达标。
方法二:删除一些特征,然后慢慢在保持算法精度的条件下,缩减特征。
即为选用那些本就提供特征重要性的模型,直接调用相应方法进行特征选择。

①RF选取重要性特征的依据

平均不纯度减少(MDI): 表示每个特征对误差的平均减少程度。

平均精确度减少(MDA): 打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。对于不重要的特征来说,打乱顺序对模型的精确率影响不大,但是对于重要的特征来说,打乱顺序就会降低模型的精确率。

②GBDT
根据非叶子节点在分裂时加权不纯度减少的程度来衡量的,减少的越多说明特征越重要。不纯度的减少实际上就是该节点此次分裂的收益,因此我们也可以这样理解,节点分裂时收益越大,该节点对应的特征重要下性越高。
③XGBoost

  • weight:特征用来作为分裂点的次数。
  • gain:使用特征进行切分的平均增益。
  • coevr:某个特征在某个节点进行分裂时所覆盖的样本个数。
(3)嵌入法(Embedded)

就是利用正则化的思想,将部分特征属性的权重调整到0,则这个特性相当于就是被舍弃了。(其实就是在损失函数上再加入正则项,不断的利用梯度下降极小化损失函数,调整一些特征的权重,有些权重变为0了则相当于被舍弃了,没被舍弃的相当于被选择出来的向量)

L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验。

二、常见的特征提取方法?
  • 主成分分析(PCA)
  • 独立成分分析(ICA)
  • 线性判别分析(LDA)
    ##### 1. PCA
    (1)无监督学习降维方法,只需要进行特征分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点,出现了很多PCA的变种,比如为解决非线性降维的KPCA,还有解决内存限制的增量PCA方法Incremental PCA,以及决绝稀疏数据降噪方法Sparse PCA等。
    =PCA是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低位的空间中表示,并期望在所投影的维度上数据的方差最大(样本的分布最散乱)以使用较少的数据维'度同时保留住较多的原数据点的特征.=
    (2)PCA的优缺点
  • 仅需要以方差衡量信息量,不受数据集以外的因素影响
  • 各主成分之间正交,可消除原始数据成分间的相互影响的因素
  • 计算方法简单,主要运算是特征值分解,易于实现

*------------------------------

  • 提取出的特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
  • PCA会消除一些类信息,但是方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。
2.LDA

LDA是一种监督学习的降维技术,它的数据集的每个样本是有类别输出的。
(1) 投影后类内方差最小,类间方差最大—我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
(2)LDA的优缺点分析

  • 在降维过程中可以使用类别的先验知识经验,而像PCA就无法使用类别先验知识。

  • LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。


  • LDA不适合对非高斯分布样本进行降维

  • LDA降维最多降为类别k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。

  • 可能过拟合数据

  • 在样本分类信息依赖方差而不是均值的时候,降维效果不好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值