数据预处理四个概念(数据转换、数据清洗、数据规约、数据集成)详情及区别

该文章已生成可运行项目,

1. 数据清洗(Data Cleaning)

定义‌:修复或删除数据中的错误、噪声、不一致和冗余部分,确保数据质量。
核心任务‌:

  • 处理缺失值(填充、删除)。
  • 删除重复记录。
  • 纠正错误(如异常值、拼写错误)。
  • 统一格式(如日期格式 YYYY-MM-DD)。

解释‌:就像给你的房间做大扫除。

  • 做什么‌:
    • 扔掉垃圾(删除重复、无用的数据)。
    • 擦掉桌子上的灰尘(修正错误,比如把“北京”写成“北就”)。
    • 把乱放的衣服收进衣柜(统一格式,比如把“2023/1/1”改成“2023-01-01”)。
  • 目的‌:让数据干净、整齐,没有“脏东西”。

示例‌:

pythonCopy Code

# 删除缺失值超过50%的列

data.dropna(axis=1, thresh=0.5*len(data), inplace=True)

# 将性别字段统一为小写

data['gender'] = data['gender'].str.lower()


2. 数据转换(Data Transformation)

定义‌:将数据转换为适合分析的格式或结构,通常涉及数学变换或规范化。
核心任务‌:

  • 标准化/归一化(如 Z-ScoreMin-Max)。
  • 离散化(将连续值分段,如年龄分组)。
  • 特征编码(如独热编码 One-Hot Encoding)。
  • 数据聚合(如按日期汇总销售额)。

解释‌:就像把不同国家的钱换成人民币,或者把食材做成菜。

  • 做什么‌:
    • 把美元换算成人民币(比如把温度从华氏度转成摄氏度)。
    • 把文字变成数字(比如把“男/女”变成“0/1”)。
    • 把身高从厘米统一成米(比如从“175cm”变成“1.75m”)。
  • 目的‌:让数据变得统一、方便使用。

示例‌:

pythonCopy Code

# Min-Max归一化

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

data['income_normalized'] = scaler.fit_transform(data[['income']])


3. 数据规约(Data Reduction)

定义‌:减少数据规模但保留关键信息,提升计算效率。
核心方法‌:

  • 维度规约‌:主成分分析(PCA)、特征选择。
  • 数量规约‌:抽样(随机抽样、分层抽样)。
  • 数据压缩‌:聚类(如K-Means后保留中心点)。

解释‌:就像出门旅行时把行李箱里的东西精简到一半。

  • 做什么‌:
    • 只带最需要的衣服(删除不重要的数据)。
    • 用压缩袋装羽绒服(比如用平均值代替100条重复记录)。
    • 把10张照片合成1张缩略图(比如用图表代替原始数据)。
  • 目的‌:让数据更轻便、不占地方,但保留关键信息。

示例‌:

pythonCopy Code

# 使用PCA降维

from sklearn.decomposition import PCA

pca = PCA(n_components=2)

reduced_data = pca.fit_transform(data)


4. 数据集成(Data Integration)

定义‌:合并来自多个数据源的数据,解决模式冲突和冗余。
核心任务‌:

  • 实体识别(统一不同数据源的字段命名)。
  • 冗余处理(删除重复字段)。
  • 解决数据冲突(如同一商品在不同系统的价格差异)。

解释‌:就像把乐高积木拼成一辆车。

  • 做什么‌:
    • 把不同盒子里的积木倒在一起(合并多个Excel表或数据库)。
    • 找到能拼在一起的积木块(比如用“用户ID”关联订单表和用户表)。
    • 丢掉重复的积木(比如两个表里都有“用户名”,只留一个)。
  • 目的‌:把零散的数据拼成完整的“大图”。

示例‌:

sqlCopy Code

-- 合并用户表(MySQL)和订单表(CSV)

SELECT users.id, users.name, orders.amount

FROM users

JOIN orders ON users.id = orders.user_id;


对比总结

步骤核心目标典型操作阶段位置
数据清洗提升数据质量去重、填充缺失值、纠错预处理早期阶段
数据转换适配分析需求归一化、编码、离散化清洗后,建模前
数据规约降低数据复杂度降维、抽样、聚类转换后或分析前
数据集成统一多源数据合并表、解决冲突、去冗余预处理早期阶段

一句话区别

  • 数据清洗‌:修修补补,让数据变干净。
  • 数据转换‌:统一“语言”,让数据能互相理解。
  • 数据规约‌:去粗取精,让数据更轻便。
  • 数据集成‌:拼图游戏,把碎片合成整体。

实际应用流程

  1. 数据集成‌ → 合并多源数据(如数据库、API、日志文件)。
  2. 数据清洗‌ → 修复脏数据,确保一致性。
  3. 数据转换‌ → 格式化数据便于分析(如数值标准化)。
  4. 数据规约‌ → 精简数据规模,提升计算效率。

举个栗子🌰

假设你要分析一家奶茶店的销售数据:

  1. 数据清洗‌:删除重复的订单记录,修正“珍珠奈奈”为“珍珠奶茶”。
  2. 数据转换‌:把“大杯/中杯”转换成“500ml/350ml”,并计算每单总价。
  3. 数据规约‌:只保留最近3个月的数据,或按周汇总销量。
  4. 数据集成‌:把线上订单表和线下收银系统的数据合并到一起。

注意事项

  • 数据清洗‌:避免过度删除关键信息(如直接丢弃缺失值可能引入偏差)。
  • 数据转换‌:保留原始数据备份,防止不可逆操作。
  • 数据规约‌:确保规约后的数据仍能反映原始分布(如抽样需保持代表性)。
  • 数据集成‌:明确主键和外键关系,防止错误关联。

本文章已经生成可运行项目
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值