Power Query数据清洗实战:从Excel到Power BI的避坑指南(附完整M代码)
当企业数据分析师从Excel转向Power BI时,数据清洗环节往往成为第一个"拦路虎"。我曾为某零售集团实施财务系统迁移时,发现90%的初期报错都源于未正确处理空值和类型转换。本文将分享一套经过实战检验的Power Query清洗方法论,包含可直接复用的M代码模板。
1. 数据质量诊断四步法
在开始清洗前,需要系统性地评估数据健康状况。打开Power Query Editor后,建议按以下顺序进行检查:
-
列质量分析
通过视图 > 数据预览 > 列质量调出诊断面板,重点关注三个指标:- 有效性百分比(Valid)
- 错误百分比(Error)
- 空值百分比(Empty)
// 快速查看各列质量分布 Table.Profile(your_table) -
值分布扫描
使用列分发功能检查数据离散程度。某次分析销售数据时,曾发现"省份"列有82%的值集中在"广东",这提示我们需要检查数据采集流程。 -
统计特征验证
对于数值列,通过列分析查看:- 最小值/最大值是否合理
- 平均值与业务常识是否匹配
- 标准差是否异常
-
类型一致性检测
右键点击列头选择更改类型 > 使用区域设置检测,可自动识别混合类型列。常见问题包括:- 文本型数字(如"001")
- 日期存储为文本
- 布尔值显示为"是/否"
提示:在诊断阶段发现的每个问题都应记录在数据质量日志中,形成可追溯的清洗文档。
2. 空值处理的五种策略
空值处理不当会导致后续DAX计算错误。根据业务场景不同,我们有以下处理方案:
| 处理方式 | 适用场景 | M函数示例 | 优缺点 |
|---|---|---|---|

&spm=1001.2101.3001.5002&articleId=159263206&d=1&t=3&u=6f38f8887a034448a6eeacbd9b21db74)
6760

被折叠的 条评论
为什么被折叠?



