33、可解释性特征选择与工程

可解释性特征选择与工程

1. 基于过滤的特征选择方法概述

基于过滤的特征选择方法无需使用机器学习算法,就能独立地从数据集中选择特征。这些方法仅依赖变量的特征,相对高效、计算成本低且执行速度快,通常是特征选择流程的第一步。

基于过滤的方法可分为以下两类:
- 单变量方法 :独立于特征空间,一次评估和评分一个特征。其问题在于可能过滤掉过多特征,因为它不考虑特征之间的关系。
- 多变量方法 :考虑整个特征空间以及特征之间的相互作用。

总体而言,过滤方法在去除过时、冗余、常量、重复和不相关特征方面非常有效。但由于不考虑复杂的非线性、非单调相关性和相互作用(只有机器学习模型才能发现),当数据中这些关系显著时,过滤方法效果不佳。

基于过滤的方法可分为以下三类:
- 基本方法
- 相关性方法
- 排序方法

1.1 基本过滤方法

基本过滤方法用于数据准备阶段,特别是数据清理阶段,在建模之前使用。这样做的原因是做出特征选择决策对模型产生不利影响的风险较低,涉及一些常识性操作,如删除不携带信息或重复信息的特征。

1.1.1 基于方差阈值的常量特征过滤

常量特征在训练数据集中不会改变,不携带信息,模型无法从中学习。可以使用单变量方法 VarianceThreshold 来去除低方差特征,设置阈值为零,只过滤掉方差为零的特征,即常量特征。该方法仅适用于数值特征,因此需要先确定哪些是数值特征,哪些是分类特征。


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值