【解决（几乎）任何机器学习问题】:特征选择

最新推荐文章于 2025-02-18 08:40:55 发布

原创

最新推荐文章于 2025-02-18 08:40:55 发布 · 3.6k 阅读

标签

当你创建了成千上万个特征后，就该从中挑选出⼏个了。但是，我们绝不应该创建成百上千个⽆⽤的特征。特征过多会带来⼀个众所周知的问题，即 "维度诅咒"。如果你有很多特征，你也必须有很多训练样本来捕捉所有特征。什么是 "⼤量 "并没有正确的定义，这需要您通过正确验证您的模型和检查训练模型所需的时间来确定。

选择特征的最简单⽅法是删除⽅差⾮常⼩的特征。如果特征的⽅差⾮常⼩（即⾮常接近于 0），它们就接近于常量，因此根本不会给任何模型增加任何价值。最好的办法就是去掉它们，从⽽降低复杂度。请注意，⽅差也取决于数据的缩放。 Scikit-learn 的 VarianceThreshold 实现了这⼀点。

from sklearn.feature_selection import VarianceThreshold
data = .
var_thresh = VarianceThreshold(threshold=0.1)
transformed_data = var_thresh.fit_transform(data)

我们还可以删除相关性较⾼的特征。要计算不同数字特征之间的相关性，可以使⽤⽪尔逊相关性。

import pandas as pd
from sklearn.datasets import fetch_california_housing
data = fetch_california_housing()
X = data["data"]
col_names = data["feature_names"]
y = data["target"]
df = pd.DataFrame(X, columns=col_names)
df.loc[:, "MedInc_Sqrt"] = df.MedInc.apply(np.sqrt)
df.corr()

得出相关矩阵，如图 1 所⽰。