ETL 是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业 中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL 是 BI 项目 重要的一个环节。通常情况下,在 BI 项目中 ETL 会花掉整个项目的 1/3 的时间,ETL 设计的好坏 直接关接到 BI 项目的成败。
ETL 的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
数据的抽取是从各个不同的数据源抽取到 ODS(OperationalDataStore,操 作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同 的抽取方法,尽可能的提高 ETL 的运行效率。
ETL 三个部分中,花费时间最长的是“T”(Transfor m,清洗、转换)的部分,一般情况下这部分工作量是整个 ETL 的 2/3。数据的加载一般在数据清 洗完了之后直接写入 DW(DataWarehousing,数据仓库)中去。
ETL 的实现有多种方法,常用的有三种。
第一种是借助 ETL 工具实现(Datastage, Informatica,OWB).
第二种SQL方式实现
第三种ETL工具和SQL相结合。
前两种方法各有各的优缺点,借助工具可以快速的建立起 E TL 工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL 的方法优 点是灵活,提高 E

ETL是BusinessIntelligence(BI)项目的核心环节,涉及数据抽取、清洗转换和加载。它通常占据项目1/3的时间,其设计质量直接影响BI项目的成功。数据抽取从不同源抽取数据到ODS,清洗转换阶段最耗时,占ETL的2/3。ETL实现方法包括使用工具、SQL编程或两者结合。数据清洗涉及过滤不完整、错误和重复数据,转换则统一数据格式、粒度和计算商务规则。日志和警告发送是监控ETL性能的重要部分。

935

被折叠的 条评论
为什么被折叠?



