Kettle 数据抽取【Version 6.1】

最新推荐文章于 2026-06-13 14:59:54 发布

原创最新推荐文章于 2026-06-13 14:59:54 发布 · 1.2k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#etl

工作总结同时被 2 个专栏收录

30 篇文章

订阅专栏

6 篇文章

订阅专栏

Kettle是一款开源ETL工具，用于大量数据的抽取。本文详细介绍了其安装、使用，包括转换和工作流的创建，以及表输入、文本文件输出、循环设置、Java代码执行等操作的注意事项。此外，还涉及了资源库管理、压缩文件处理、邮件控件应用，以及处理SQL脚本和错误排查的方法。

背景

需要按一定规则从数据库抽取量比较大的数据。使用ETL工具完成。

简述

Kettle是国外开源的ETL工具，Java编写。后来改名PDI
转换（transformation）和工作（job）的区别：

转换是数据流，工作是步骤流，作业的每个步骤必须等前面的步骤都跑完了，后面的步骤才会执行，而转换会一次性把所有控件启动（一个控件对应一个线程）然后数据流会从第一个控件开始，一条记录一条记录地流向后面的控件。

安装使用

安装

绿色无需安装，下载解压就能使用。

设置系统变量（KETTLE_HOME）

PDI的默认配置文件保存在用户目录下的.kettle目录的kettle.properties文件中（C:\Users\Administrator\ .kettle）

设置KETTLE_HOME环境变量的值是：D:\Program Files\pdi-ce-9.1.0.0-324。重启之后在D:\Program Files\pdi-ce-9.1.0.0-324.kettle目录下可以看到kettle.properties配置文件。

使用

双击 Spoon.bat 启动
在这里插入图片描述
Kettle提供3种资源库，分别是数据库资源库、Pentaho资源库和文件资源库，本文以文件资源库为例。
工具->资源库->连接资源库【CTRL+R】

刷新资源库【CTRL+E】

首先创建一个“工作”，建立一个简单的工作流

在这里插入图片描述
进入转换，进行具体操作

表输入注意点

如果sql中使用变量，替换变量选项一定要勾。
返回数据类型如果有int,double类型数据，转为字符串类型。默认识别可能会丢失精度

在这里插入图片描述

文本文件输出注意点

需求为输出为CSV文件，使用UTF-8编码会造成中文乱码。改为GBK解决中文乱码
字段获取的时候，要点一下最小宽度。不点的情况下，默认识别数据的宽度不确定（如果数据不够宽度以空格填充）这样会造成文件太大。浪费空间。

在这里插入图片描述
按数据量分多个文件导出

循环

设置参数

在这里插入图片描述

接下来使用一个JOB循环

循环job注意点

高级设置要勾选对每个输入行执行一次?

job中接收获取参数

java代码

在这里插入图片描述

java代码注意点

如果要对值做转换，需要一个新属性来接受，不能在原属性覆盖
此处gd_lat—>使用lat_84接收

压缩文件

在这里插入图片描述

压缩文件注意点

压缩文件，如果（高级设置）zip存在的情况下，没有覆盖的功能。所以要在压缩之前加一个删除文件。避免不压缩

邮件控件

在这里插入图片描述

发送邮件，要配合【添加文件到结果文件中】使用

在这里插入图片描述

资源

Kettle 压缩包，数据库驱动jar,坐标转换工具类jar,java代码

Kettle 数据抽取【Version 6.1】-- 20211029更新

新增连接串

配置文件新增
去资源库新增连接

判断表是否存在，分流

在这里插入图片描述

Switch/case 存在BUG

直接使用 Switch/case 不好使
需要配合【transformation executor】组件，具体执行放在转换里。
在这里插入图片描述

SQL脚本

在这里插入图片描述

按字段合并多行数据，不同字段按逗号分隔

在这里插入图片描述

在这里插入图片描述

关联字段合并（类似SQL join操作）

在这里插入图片描述

表输出

在这里插入图片描述

报错 “kettle：The tablename is not defined (empty)”

去掉表输出中的“表分区数据”
在这里插入图片描述

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Abner G 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。