详解feature_importances_

文章详细讨论了feature_importances_在模型评估中的作用,包括其计算原理、随机性以及受建模过程的影响。强调了在特征筛选时需注意模型泛化、运算效率和特征利用的策略,如使用交叉验证、集成学习和特征选择方法来优化模型性能。

基于模型的评估指标

当我们进行基于模型的特征筛选时,常常会利用模型训练结果产生的特征重要性指标来评估特征的贡献程度和重要性。一些常见的特征重要性指标包括线性模型中的coef_参数以及决策树及基于决策树的集成算法中的feature_importances_。这些指标能够帮助我们了解特征对模型训练的贡献程度,从而辅助进行特征筛选。

对于线性模型,例如线性回归、Lasso回归、岭回归和逻辑回归,我们可以使用coef_参数来衡量特征的重要性。其绝对值越大,表示特征对因变量的影响越大,因此特征越重要。

而对于决策树及基于决策树的集成算法,我们通常会使用feature_importances_指标来评估特征的重要性。这个指标能够衡量特征对标签取值区分度的累计结果,因此也是一种普适的评估指标。

然而,这些指标的应用并不仅仅是根据评分由高到低筛选特征这么简单。因此,有必要深入理解这些指标的计算流程,并据此探究如何应用这些指标进行特征筛选。以feature_importances_为例进行讲解,coef_指标的使用过程也是类似的。

1. feature_importances_的计算过程

这里我们首先通过一组极简的数据,先来探讨决策树feature_importances_指标的计算过程。

# 准备数据集
X = np.array([[1, 1], [2, 2], [2, 1], [1, 2], [1, 1], [1, 2], [1, 2], [2, 1]])
X = pd.DataFrame(X, columns=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值