scikit-learn：make_classification函数

原创已于 2024-12-19 23:42:49 修改 · 601 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习 #scikit-learn

于 2024-12-19 23:40:03 首次发布

人工智能专栏收录该内容

283 篇文章

订阅专栏

`make_classification` 是 `scikit-learn` 库中用于生成分类数据的一个非常实用的函数。它能够创建一个非常灵活的模拟数据集，供用户进行分类算法的测试和验证。以下是对该函数的详细介绍。

1. 函数概述

`make_classification` 可以生成具有特定特征、样本量和分类结构的随机分类数据集。用户可以配置许多参数，以定制生成的数据集以适应特定需求。

2. 使用方法

以下是 `make_classification` 函数的基本使用示例。

示例

from sklearn.datasets import make_classification  
import matplotlib.pyplot as plt  
import pandas as pd  

# 生成一个二分类问题的数据集  
X, y = make_classification(n_samples=100,    # 样本数量  
                           n_features=20,   # 特征数量  
                           n_informative=2, # 有用特征数量  
                           n_redundant=2,   # 冗余特征数量  
                           n_clusters_per_class=1, # 每个类别的数据簇数量  
                           random_state=42)        # 随机种子  

# 将数据转化为 DataFrame便于展示  
feature_names = [f'Feature {i}' for i in range(X.shape[1])]  

# 创建 DataFrame  
df = pd.DataFrame(X, columns=feature_names)  
df['Target'] = y  

# 打印前五行  
print(df.head())  

# 可视化一些特征  
plt.scatter(df['Feature 0'], df['Feature 1'], c=y, cmap='rainbow', edgecolor='k', s=100)  
plt.title('Generated Classification Data')  
plt.xlabel('Feature 0')  
plt.ylabel('Feature 1')  
plt.show()

3. 参数说明

`make_classification` 函数接受一系列参数，主要包括：

        `n_samples`: 整数值，生成的样本数量（默认值为 100）。
        `n_features`: 整数值，生成的特征数量（默认值为 20）。
         `n_informative`: 整数值，真正对目标变量有影响的特征数量（默认值为 2）。
        `n_redundant`: 整数值，冗余特征数量，冗余特征是线性组合的有效特征（默认值为 2）。
        `n_clusters_per_class`: 整数值，每个类别的簇的数量（默认值为 1）。
        `flip_y`: 浮点值，表示样本标签随机翻转的比例（默认值为 0.01）。
        `random_state`: 整数值或 None，用于初始化随机数生成器。