可解释性特征选择与工程
1. 基于过滤的特征选择方法概述
基于过滤的特征选择方法无需使用机器学习算法,就能独立地从数据集中选择特征。这些方法仅依赖变量的特征,相对高效、计算成本低且执行速度快,通常是特征选择流程的第一步。
基于过滤的方法可分为以下两类:
- 单变量方法 :独立于特征空间,一次评估和评分一个特征。其问题在于可能过滤掉过多特征,因为它不考虑特征之间的关系。
- 多变量方法 :考虑整个特征空间以及特征之间的相互作用。
总体而言,过滤方法在去除过时、冗余、常量、重复和不相关特征方面非常有效。但由于不考虑复杂的非线性、非单调相关性和相互作用(只有机器学习模型才能发现),当数据中这些关系显著时,过滤方法效果不佳。
基于过滤的方法可分为以下三类:
- 基本方法
- 相关性方法
- 排序方法
1.1 基本过滤方法
基本过滤方法用于数据准备阶段,特别是数据清理阶段,在建模之前使用。这样做的原因是做出特征选择决策对模型产生不利影响的风险较低,涉及一些常识性操作,如删除不携带信息或重复信息的特征。
1.1.1 基于方差阈值的常量特征过滤
常量特征在训练数据集中不会改变,不携带信息,模型无法从中学习。可以使用单变量方法 VarianceThreshold 来去除低方差特征,设置阈值为零,只过滤掉方差为零的特征,即常量特征。该方法仅适用于数值特征,因此需要先确定哪些是数值特征,哪些是分类特征。
超级会员免费看
订阅专栏 解锁全文

74

被折叠的 条评论
为什么被折叠?



