BI项目中ETL设计与思考

ETL是BusinessIntelligence(BI)项目的核心环节,涉及数据抽取、清洗转换和加载。它通常占据项目1/3的时间,其设计质量直接影响BI项目的成功。数据抽取从不同源抽取数据到ODS,清洗转换阶段最耗时,占ETL的2/3。ETL实现方法包括使用工具、SQL编程或两者结合。数据清洗涉及过滤不完整、错误和重复数据,转换则统一数据格式、粒度和计算商务规则。日志和警告发送是监控ETL性能的重要部分。

ETL 是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的将企业 中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL 是 BI 项目 重要的一个环节。通常情况下,在 BI 项目中 ETL 会花掉整个项目的 1/3 的时间,ETL 设计的好坏 直接关接到 BI 项目的成败。

ETL 的设计分三部分:数据抽取、数据的清洗转换、数据的加载。

数据的抽取是从各个不同的数据源抽取到 ODS(OperationalDataStore,操 作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同 的抽取方法,尽可能的提高 ETL 的运行效率。

ETL 三个部分中,花费时间最长的是“T”(Transfor m,清洗、转换)的部分,一般情况下这部分工作量是整个 ETL 的 2/3。数据的加载一般在数据清 洗完了之后直接写入 DW(DataWarehousing,数据仓库)中去

ETL 的实现有多种方法,常用的有三种。

第一种是借助 ETL 工具实现(Datastage, Informatica,OWB).

第二种SQL方式实现

第三种ETL工具和SQL相结合。

前两种方法各有各的优缺点,借助工具可以快速的建立起 E TL 工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL 的方法优 点是灵活,提高 E

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值