特征提取和特征选择方法

最新推荐文章于 2024-12-20 15:19:20 发布

原创最新推荐文章于 2024-12-20 15:19:20 发布 · 1w 阅读

79 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习

机器学习专栏收录该内容

7 篇文章

订阅专栏

一、特征提取和特征选择

1、特征选择和特征选择的区别
=特征选择和降维（特征提取）有些许的相似点=，这两者达到的效果是一样的，就是试图去减少特征数据集中的属性的数目；但是两者所采用的方式方法却不同：
降维的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间；而特征选择的方法是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。

2、常用的特征选择方法

特征发散：如果特征不发散，也就是说特征的方差趋近于0，则代表这个特征上不同样本之间没有差异性，对区分样本的作用基本不存在。
特征与目标的相关性：所谓相关性，就是说特征和目标值之间存在正相关（随着目标值的变大特征值也逐渐变大）或者负相关的特性。代表了特征值和目标值之间具有很强的数据上的因果关系。

（1）过滤法（Filter）

过滤法就是按照发散性或者相关性对各个特征进行评分，设定阙值或者选择阙值的个数，完成特征选择。

①方差法：这种方法通过计算每个特征的均值和方差，设定一个基础阙值，当该维度的特征方差小于基础阙值时，则丢弃该特征。这种方法简单高效的过滤了一些地方差的特征，但是存在一个问题就是阙值的设定是一个先验条件，当设置过低时，保留了过多低效的特征，设置过高则丢弃了过多有用的特征。

②单变量特征选择:单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。单变量特征选择方法，独立的衡量每个特征与响应变量之间的关系。

③ 卡方检验：对于回归和分类问题可以采用卡方检验等方式对特征进行测试。（检验独立性）。
卡方检验通常用于检验两个变量间的独立性，在做特征选择时我们希望检验每个特征和类别之间的独立性，对于每个特征我们假设特征和类别相互独立。卡方值越大越偏离这个假设，说明特征和类别不相互独立是我们想要选择的特征，因此对卡方值从大到小进行排序，选择前k个。

④互信息法选择特征样例
互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

（2）包裹法（Wrapper）

包裹法就是选择特定算法，然后根据算法效果来选择特征集合。
就是通过不断的启发式方法来搜索特征，主要分为如下两类。
方法一：选择一些特征，逐步增加特征保证算法模型精度是否达标。
方法二：删除一些特征，然后慢慢在保持算法精度的条件下，缩减特征。
即为选用那些本就提供特征重要性的模型，直接调用相应方法进行特征选择。

①RF选取重要性特征的依据

平均不纯度减少（MDI）： 表示每个特征对误差的平均减少程度。

平均精确度减少（MDA）： 打乱每个特征的特征值顺序，并且度量顺序变动对模型的精确率的影响。对于不重要的特征来说，打乱顺序对模型的精确率影响不大，但是对于重要的特征来说，打乱顺序就会降低模型的精确率。

②GBDT
根据非叶子节点在分裂时加权不纯度减少的程度来衡量的，减少的越多说明特征越重要。不纯度的减少实际上就是该节点此次分裂的收益，因此我们也可以这样理解，节点分裂时收益越大，该节点对应的特征重要下性越高。
③XGBoost

weight:特征用来作为分裂点的次数。
gain:使用特征进行切分的平均增益。
coevr:某个特征在某个节点进行分裂时所覆盖的样本个数。

(3)嵌入法（Embedded）

就是利用正则化的思想，将部分特征属性的权重调整到0，则这个特性相当于就是被舍弃了。（其实就是在损失函数上再加入正则项，不断的利用梯度下降极小化损失函数，调整一些特征的权重，有些权重变为0了则相当于被舍弃了，没被舍弃的相当于被选择出来的向量）

L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验。

二、常见的特征提取方法？

主成分分析（PCA）
独立成分分析（ICA）
线性判别分析（LDA）
#####　1. PCA
（１）无监督学习降维方法，只需要进行特征分解，就可以对数据进行压缩，去噪。因此在实际场景应用很广泛。为了克服ＰＣＡ的一些缺点，出现了很多ＰＣＡ的变种，比如为解决非线性降维的ＫＰＣＡ，还有解决内存限制的增量ＰＣＡ方法Ｉｎｃｒｅｍｅｎｔａｌ　ＰＣＡ，以及决绝稀疏数据降噪方法Ｓｐａｒｓｅ　ＰＣＡ等。
＝ＰＣＡ是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低位的空间中表示，并期望在所投影的维度上数据的方差最大（样本的分布最散乱）以使用较少的数据维＇度同时保留住较多的原数据点的特征．＝
（２）ＰＣＡ的优缺点
仅需要以方差衡量信息量，不受数据集以外的因素影响
各主成分之间正交，可消除原始数据成分间的相互影响的因素
计算方法简单，主要运算是特征值分解，易于实现

*------------------------------