一、转换组件(数据流处理)
-
字段操作类
- 值映射 (Value Mapper):将字段值按预设规则替换(如
1→男, 2→女) - 列拆分为多行 (Split Field to Rows):按分隔符拆分字段生成多行(如
A,B,C→ 3行) - 列转行/行转列:改变数据结构,支持行列转换
- 值映射 (Value Mapper):将字段值按预设规则替换(如
-
流程控制类
- 过滤记录 (Filter Rows):按条件分流数据(如
age>30与age<=30) - Switch/Case:多条件分支路由(类似编程语言中的
switch)
- 过滤记录 (Filter Rows):按条件分流数据(如
-
数据清洗类
- 替换NULL值:将空值转换为默认值(如
NULL→0) - 去除重复记录:基于字段去重
- 替换NULL值:将空值转换为默认值(如
二、统计组件(数据聚合)
-
分组 (Group By)
- 按字段分组计算(如按班级统计平均分)
- 支持聚合函数:
SUM、AVG、COUNT等
-
排序记录 (Sort Rows)
- 必须作为分组的前置步骤,确保数据有序
-
合并记录 (Merge Rows)
- 对比新旧数据集,生成差异标记(如
identical/changed/deleted)
- 对比新旧数据集,生成差异标记(如
三、典型组合应用
-
数据标准化流程
流程说明:先清洗再转换最后聚合
-
异常检测场景
- 使用 过滤记录 分离异常数据
- 通过 写日志 组件记录异常明细
四、注意事项
-
性能优化
- 大数据量时优先使用数据库原生聚合(如SQL的
GROUP BY) - 避免在内存中处理未过滤的数据流
- 大数据量时优先使用数据库原生聚合(如SQL的
-
组件依赖
- 分组前必须排序,否则结果可能错误
- 列转行需预先按关键字段排序
以上组件可通过 Spoon 图形界面拖拽配置,完整文档见 Pentaho 官方手册。
764

被折叠的 条评论
为什么被折叠?



