机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
sklearn.feature_selection模块里的类能被用来在样本集上作特征选择、或者叫维数降低,改善估计量的准确性、在高维空间的表现。下面我们介绍几种常用的特征选择方法。
删除低方差特征
VarianceThreshold是一个简单的特征选择基准方法。它删除所有方差小于某阈值的特征。默认删除所有0方差特征,即,特征在所有样本里有相同的值。举一个例子,假设我们有一个布尔特征数据集,我们想删除在超过80%的样本里值都是1或都是0的特征。布尔特征是Bernoulli型随机变量,它的方差是
Var(X)=p(1−p)Var(X)=p(1-p)Var(X)=p(1−

本文介绍了机器学习中几种常见的特征选择方法,包括删除低方差特征、单变量特征选择、递归特征排除以及基于模型的特征选择。通过设置阈值、统计检验和使用如L1正则化的模型来降低数据维度,提升模型表现。此外,还强调了特征选择在管道中的应用,以优化数据预处理流程。

3233

被折叠的 条评论
为什么被折叠?



