详解feature_importances_

原创

已于 2024-01-24 17:30:09 修改 · 5.5k 阅读

标签

#机器学习

于 2024-01-18 10:17:04 首次发布

文章详细讨论了feature_importances_在模型评估中的作用，包括其计算原理、随机性以及受建模过程的影响。强调了在特征筛选时需注意模型泛化、运算效率和特征利用的策略，如使用交叉验证、集成学习和特征选择方法来优化模型性能。

详解feature_importances_

基于模型的评估指标

基于模型的评估指标

当我们进行基于模型的特征筛选时，常常会利用模型训练结果产生的特征重要性指标来评估特征的贡献程度和重要性。一些常见的特征重要性指标包括线性模型中的coef_参数以及决策树及基于决策树的集成算法中的feature_importances_。这些指标能够帮助我们了解特征对模型训练的贡献程度，从而辅助进行特征筛选。

对于线性模型，例如线性回归、Lasso回归、岭回归和逻辑回归，我们可以使用coef_参数来衡量特征的重要性。其绝对值越大，表示特征对因变量的影响越大，因此特征越重要。

而对于决策树及基于决策树的集成算法，我们通常会使用feature_importances_指标来评估特征的重要性。这个指标能够衡量特征对标签取值区分度的累计结果，因此也是一种普适的评估指标。

然而，这些指标的应用并不仅仅是根据评分由高到低筛选特征这么简单。因此，有必要深入理解这些指标的计算流程，并据此探究如何应用这些指标进行特征筛选。以feature_importances_为例进行讲解，coef_指标的使用过程也是类似的。

1. feature_importances_的计算过程

这里我们首先通过一组极简的数据，先来探讨决策树feature_importances_指标的计算过程。

# 准备数据集
X = np.array([[1, 1], [2, 2], [2, 1], [1, 2], [1, 1], [1, 2], [1, 2], [2, 1]])
X = pd.DataFrame(X, columns=

最低0.47元/天解锁文章