数据预处理四个概念（数据转换、数据清洗、数据规约、数据集成）详情及区别

最新推荐文章于 2025-04-08 11:34:17 发布

原创最新推荐文章于 2025-04-08 11:34:17 发布 · 2.1k 阅读

22 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #人工智能

该文章已生成可运行项目，

1. 数据清洗（Data Cleaning）‌

‌定义‌：修复或删除数据中的错误、噪声、不一致和冗余部分，确保数据质量。
‌核心任务‌：

处理缺失值（填充、删除）。
删除重复记录。
纠正错误（如异常值、拼写错误）。
统一格式（如日期格式 YYYY-MM-DD）。

‌解释‌：就像给你的房间做大扫除。

‌做什么‌：
- 扔掉垃圾（删除重复、无用的数据）。
- 擦掉桌子上的灰尘（修正错误，比如把“北京”写成“北就”）。
- 把乱放的衣服收进衣柜（统一格式，比如把“2023/1/1”改成“2023-01-01”）。
‌目的‌：让数据干净、整齐，没有“脏东西”。

‌示例‌：

pythonCopy Code

# 删除缺失值超过50%的列

data.dropna(axis=1, thresh=0.5*len(data), inplace=True)

# 将性别字段统一为小写

data['gender'] = data['gender'].str.lower()

‌2. 数据转换（Data Transformation）‌

‌定义‌：将数据转换为适合分析的格式或结构，通常涉及数学变换或规范化。
‌核心任务‌：

标准化/归一化（如 Z-Score、Min-Max）。
离散化（将连续值分段，如年龄分组）。
特征编码（如独热编码 One-Hot Encoding）。
数据聚合（如按日期汇总销售额）。

‌解释‌：就像把不同国家的钱换成人民币，或者把食材做成菜。

‌做什么‌：
- 把美元换算成人民币（比如把温度从华氏度转成摄氏度）。
- 把文字变成数字（比如把“男/女”变成“0/1”）。
- 把身高从厘米统一成米（比如从“175cm”变成“1.75m”）。
‌目的‌：让数据变得统一、方便使用。

‌示例‌：

pythonCopy Code

# Min-Max归一化

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

data['income_normalized'] = scaler.fit_transform(data[['income']])

‌3. 数据规约（Data Reduction）‌

‌定义‌：减少数据规模但保留关键信息，提升计算效率。
‌核心方法‌：

‌维度规约‌：主成分分析（PCA）、特征选择。
‌数量规约‌：抽样（随机抽样、分层抽样）。
‌数据压缩‌：聚类（如K-Means后保留中心点）。

‌解释‌：就像出门旅行时把行李箱里的东西精简到一半。

‌做什么‌：
- 只带最需要的衣服（删除不重要的数据）。
- 用压缩袋装羽绒服（比如用平均值代替100条重复记录）。
- 把10张照片合成1张缩略图（比如用图表代替原始数据）。
‌目的‌：让数据更轻便、不占地方，但保留关键信息。

‌示例‌：

pythonCopy Code

# 使用PCA降维

from sklearn.decomposition import PCA

pca = PCA(n_components=2)

reduced_data = pca.fit_transform(data)

‌4. 数据集成（Data Integration）‌

‌定义‌：合并来自多个数据源的数据，解决模式冲突和冗余。
‌核心任务‌：

实体识别（统一不同数据源的字段命名）。
冗余处理（删除重复字段）。
解决数据冲突（如同一商品在不同系统的价格差异）。

‌解释‌：就像把乐高积木拼成一辆车。

‌做什么‌：
- 把不同盒子里的积木倒在一起（合并多个Excel表或数据库）。
- 找到能拼在一起的积木块（比如用“用户ID”关联订单表和用户表）。
- 丢掉重复的积木（比如两个表里都有“用户名”，只留一个）。
‌目的‌：把零散的数据拼成完整的“大图”。

‌示例‌：

sqlCopy Code

-- 合并用户表（MySQL）和订单表（CSV）

SELECT users.id, users.name, orders.amount

FROM users

JOIN orders ON users.id = orders.user_id;

‌对比总结‌

‌步骤‌	‌核心目标‌	‌典型操作‌	‌阶段位置‌
数据清洗	提升数据质量	去重、填充缺失值、纠错	预处理早期阶段
数据转换	适配分析需求	归一化、编码、离散化	清洗后，建模前
数据规约	降低数据复杂度	降维、抽样、聚类	转换后或分析前
数据集成	统一多源数据	合并表、解决冲突、去冗余	预处理早期阶段