详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

本文介绍了数据仓库(DW)的概念,包括其目的、主要特点和与数据库的对比。数据仓库通过ETL过程从不同数据源整合数据,并通过分层(如ODS、DWD、DWM、DWS、ADS)进行数据清洗、聚合和提供服务。ODS层是原始数据准备区,DWD层进行数据清洗,DWM层进行轻度聚合,DWS层构建宽表供业务查询,而ADS层则服务于数据产品和分析。数据集市是针对特定用户或部门的数据仓库子集,提供预计算的数据以优化性能。

何为数仓DW

Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。

数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。

数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等

主要特点

  • 面向主题
    • 操作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
    • 主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个操作型信息系统相关。
  • 集成
    • 需要对源数据进行加工与融合,统一与综合
    • 在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。(关联关系)
  • 不可修改
    • DW中的数据并不是最新的,而是来源于其他数据源
    • 数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询
  • 与时间相关
    • 处于决策的需要数据仓库中的数据都需要标明时间属性

与数据库的对比

  • DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势
  • 数据库:用于捕获和存储数据

为何要分层

数据仓库中涉及到的问题:

  1. 为什么要做数据仓库?
  2. 为什么要做数据质量管理?
  3. 为什么要做元数据管理?
  4. 数仓分层中每个层的作用是什么?
  5. …...

在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jane9872

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值