何为数仓DW
Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。
数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。
数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等
主要特点
- 面向主题
- 操作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
- 主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个操作型信息系统相关。
- 集成
- 需要对源数据进行加工与融合,统一与综合
- 在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。(关联关系)
- 不可修改
- DW中的数据并不是最新的,而是来源于其他数据源
- 数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询
- 与时间相关
- 处于决策的需要数据仓库中的数据都需要标明时间属性
与数据库的对比
- DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势
- 数据库:用于捕获和存储数据
为何要分层
数据仓库中涉及到的问题:
- 为什么要做数据仓库?
- 为什么要做数据质量管理?
- 为什么要做元数据管理?
- 数仓分层中每个层的作用是什么?
- …...
在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道

本文介绍了数据仓库(DW)的概念,包括其目的、主要特点和与数据库的对比。数据仓库通过ETL过程从不同数据源整合数据,并通过分层(如ODS、DWD、DWM、DWS、ADS)进行数据清洗、聚合和提供服务。ODS层是原始数据准备区,DWD层进行数据清洗,DWM层进行轻度聚合,DWS层构建宽表供业务查询,而ADS层则服务于数据产品和分析。数据集市是针对特定用户或部门的数据仓库子集,提供预计算的数据以优化性能。

1587

被折叠的 条评论
为什么被折叠?



