不慌,我也是刚听说这个词,一脑袋懵
一、ETL
什么是ETL?ETL是三个英文单词的缩写,即数据抽取、转换、装载的过程。对于企业或者行业应用来说,经常会遇到各种数据的处理,转换,迁移,所以掌握一种ETL工具的使用是必须的,Kettle就是ETL工具。
二、Kettle简介
1.Kettle是一款国外开源的ETL工具,纯Java编写的,绿色无需安装,数据抽取高效稳定。
2.Kettle中文:水壶,作者希望把各种数据放到一个壶里,然后以一种指定的格式流出。
3.Kettle能管理来自不同数据库的数据。图形化管理。
4.Kettle中有两种脚本文件,transformation和job,transformation完成对数据的基础转换,job完成整个工作流的控制。
5.Kettle已经改名为PDI
三、Kettle的结构

Kettle的结构1:Spoon和Data Integration Server
Spoon是构建ETL Job和Transformation的工具。
Spoon以拖拽的方式图形化设计,能够送过Spoon调用专用的数据集成引擎或者集群。
Data Integration Server是一个专用的ETL Server,它的功能有:

Kettle的结构2:Enterprise Console
Enterprise Console(企业控制台)提供了一个小型的客户端,用于管理Pentaho Data Integration企业版的部署。
包括企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。
四、Kettle的核心组件
1.Spoon:通过图形接口,用于编辑作业和转换的桌面应用。
2.Pan:一个独立的命令行程序,用于执行由Spoon编辑的转换和作业。
3.Kitchen:一个独立的命令行程序,用于执行由Spoon编辑的作业。
4.Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。
五、Kettle的下载
kettle国内镜像下载
7.1版本
http://mirror.bit.edu.cn/pentaho/Data%20Integration/
8.2版本
http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/
pdi-ce-8.2.0.0-342.zip 15-Nov-2018 09:26 1.1G
六、Kettle的目录结构



七、Kettle的部署
下载解压完就开始部署,因为这东西是Java写的,所以得有Java1.8环境,那么Java程序猿肯定有,这个就不说了,除了Java环境,还得配置一个KETTLE_HOME:kettle的解压目录

去目录,运行Spoon.bat,能正常打开软件,说明没问题。

我打开软件卡了好一会。。明显听见我3000块钱的笔记本电脑风扇狂转,这东西这么占内存。那么熏弟们电脑没我贵的(内存不太够的)去打开Spoon.bat编辑,找到初始化这块,把1024 2048都改小点,不然真打不开软件。
if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m"

七、Kettle的界面简介
略,啥也不懂,就瞎点点看,下一章操作起来。
本文介绍了ETL过程,并详细讲解了开源ETL工具Kettle(PDI)的基础知识,包括其简介、核心组件、下载方式、目录结构以及部署步骤。Kettle提供图形化界面Spoon,支持数据处理和管理工作流。
:kettle的介绍,下载,目录结构,部署&spm=1001.2101.3001.5002&articleId=109536887&d=1&t=3&u=f4733f9e310b48a983ccee907467a9a4)

被折叠的 条评论
为什么被折叠?



