1. 数据清洗(Data Cleaning)
定义:修复或删除数据中的错误、噪声、不一致和冗余部分,确保数据质量。
核心任务:
- 处理缺失值(填充、删除)。
- 删除重复记录。
- 纠正错误(如异常值、拼写错误)。
- 统一格式(如日期格式
YYYY-MM-DD)。
解释:就像给你的房间做大扫除。
- 做什么:
- 扔掉垃圾(删除重复、无用的数据)。
- 擦掉桌子上的灰尘(修正错误,比如把“北京”写成“北就”)。
- 把乱放的衣服收进衣柜(统一格式,比如把“2023/1/1”改成“2023-01-01”)。
- 目的:让数据干净、整齐,没有“脏东西”。
示例:
pythonCopy Code
# 删除缺失值超过50%的列
data.dropna(axis=1, thresh=0.5*len(data), inplace=True)
# 将性别字段统一为小写
data['gender'] = data['gender'].str.lower()
2. 数据转换(Data Transformation)
定义:将数据转换为适合分析的格式或结构,通常涉及数学变换或规范化。
核心任务:
- 标准化/归一化(如
Z-Score、Min-Max)。 - 离散化(将连续值分段,如年龄分组)。
- 特征编码(如独热编码
One-Hot Encoding)。 - 数据聚合(如按日期汇总销售额)。
解释:就像把不同国家的钱换成人民币,或者把食材做成菜。
- 做什么:
- 把美元换算成人民币(比如把温度从华氏度转成摄氏度)。
- 把文字变成数字(比如把“男/女”变成“0/1”)。
- 把身高从厘米统一成米(比如从“175cm”变成“1.75m”)。
- 目的:让数据变得统一、方便使用。
示例:
pythonCopy Code
# Min-Max归一化
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data['income_normalized'] = scaler.fit_transform(data[['income']])
3. 数据规约(Data Reduction)
定义:减少数据规模但保留关键信息,提升计算效率。
核心方法:
- 维度规约:主成分分析(PCA)、特征选择。
- 数量规约:抽样(随机抽样、分层抽样)。
- 数据压缩:聚类(如K-Means后保留中心点)。
解释:就像出门旅行时把行李箱里的东西精简到一半。
- 做什么:
- 只带最需要的衣服(删除不重要的数据)。
- 用压缩袋装羽绒服(比如用平均值代替100条重复记录)。
- 把10张照片合成1张缩略图(比如用图表代替原始数据)。
- 目的:让数据更轻便、不占地方,但保留关键信息。
示例:
pythonCopy Code
# 使用PCA降维
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(data)
4. 数据集成(Data Integration)
定义:合并来自多个数据源的数据,解决模式冲突和冗余。
核心任务:
- 实体识别(统一不同数据源的字段命名)。
- 冗余处理(删除重复字段)。
- 解决数据冲突(如同一商品在不同系统的价格差异)。
解释:就像把乐高积木拼成一辆车。
- 做什么:
- 把不同盒子里的积木倒在一起(合并多个Excel表或数据库)。
- 找到能拼在一起的积木块(比如用“用户ID”关联订单表和用户表)。
- 丢掉重复的积木(比如两个表里都有“用户名”,只留一个)。
- 目的:把零散的数据拼成完整的“大图”。
示例:
sqlCopy Code
-- 合并用户表(MySQL)和订单表(CSV)
SELECT users.id, users.name, orders.amount
FROM users
JOIN orders ON users.id = orders.user_id;
对比总结
| 步骤 | 核心目标 | 典型操作 | 阶段位置 |
|---|---|---|---|
| 数据清洗 | 提升数据质量 | 去重、填充缺失值、纠错 | 预处理早期阶段 |
| 数据转换 | 适配分析需求 | 归一化、编码、离散化 | 清洗后,建模前 |
| 数据规约 | 降低数据复杂度 | 降维、抽样、聚类 | 转换后或分析前 |
| 数据集成 | 统一多源数据 | 合并表、解决冲突、去冗余 | 预处理早期阶段 |
一句话区别
- 数据清洗:修修补补,让数据变干净。
- 数据转换:统一“语言”,让数据能互相理解。
- 数据规约:去粗取精,让数据更轻便。
- 数据集成:拼图游戏,把碎片合成整体。
实际应用流程
- 数据集成 → 合并多源数据(如数据库、API、日志文件)。
- 数据清洗 → 修复脏数据,确保一致性。
- 数据转换 → 格式化数据便于分析(如数值标准化)。
- 数据规约 → 精简数据规模,提升计算效率。
举个栗子🌰
假设你要分析一家奶茶店的销售数据:
- 数据清洗:删除重复的订单记录,修正“珍珠奈奈”为“珍珠奶茶”。
- 数据转换:把“大杯/中杯”转换成“500ml/350ml”,并计算每单总价。
- 数据规约:只保留最近3个月的数据,或按周汇总销量。
- 数据集成:把线上订单表和线下收银系统的数据合并到一起。
注意事项
- 数据清洗:避免过度删除关键信息(如直接丢弃缺失值可能引入偏差)。
- 数据转换:保留原始数据备份,防止不可逆操作。
- 数据规约:确保规约后的数据仍能反映原始分布(如抽样需保持代表性)。
- 数据集成:明确主键和外键关系,防止错误关联。
详情及区别&spm=1001.2101.3001.5002&articleId=147057657&d=1&t=3&u=a48f51cd3c354aa58a5483bb61dfb9a1)
2386

被折叠的 条评论
为什么被折叠?



