etl系统是数仓建设中很重要得一块,它扮演搬运和加工两个角色
搬运:数据仓库是一个中央存储库,它的数据来源于诸多的源系统,以制造业为例,涉及的系统有:MES、ERP、CRM、PLM、HR、OA等,搬运也有两种方式:pull和push
加工:搬运来的数据五花八门,格式不一,如果要使用,就要做规范化处理,常见的处理:缺失数据的补齐,数据格式的统一,数据维度的映射,数据的拆分、数据的整合,涉及到数据集成的策略:是全量抽取覆盖,或者增量抽取,对于变化的历史数据是怎么处理,是直接覆盖,还是保留,增加新的内容,对于源端删除数据的处理等等
本文详细阐述了ETL系统在数据仓库建设中的角色,包括从多个源系统如MES、ERP等抽取数据的搬运过程,以及对不同类型和格式数据进行规范化处理(如填充缺失值、统一格式等)的加工环节。重点讨论了数据集成策略的选择,如全量或增量抽取,以及如何处理历史数据更新和源端数据删除问题。

183

被折叠的 条评论
为什么被折叠?



