概述
上一篇主要阐述了 OneData 建模体系中的规范定义部分,而本篇主要阐述的是分层模型设计部分。当了解到每一个业务过程与维度的关联,就可以基本明确需要设计事实表与维度表;再通过明确统计指标的深入分析,就可以下沉某些相同计算逻辑。这是数仓的基本架构雏形已明确,而接下来则是设计各个表如何设计。例如:什么样的表放在ODS层以或者DWD层、及这样设计的依据是什么;后续内容将展开说明。
分层模型设计

可靠的数仓体系,需要良好的数据分层结构。合理的分层结构可以使数据体系更加清晰,将复杂问题简单化。
ODS层设计
设计目的:
- 数据同步:将结构化数据增量或全量同步过来,且表结构不发生改变;
- 结构化:将非结构化数据(埋点日志)结构化处理,并存储到数仓系统中;
- 保存历史数据、清洗:根据数据业务需求保存历史数据以及数据清洗;
表命名规范:
ods_表名_增量或全量标识(inc:增量/full:全量)
注:ODS 层数据保存的是历史数据,因此要选择压缩比较高的格式(gzip)。
DWD层设计
设计目的:基于维度建模设计明细宽表,复用关联计算,减少数据扫描。
表命名规范:
dwd

文章介绍了数据仓库的分层模型设计,包括ODS层的数据同步和清洗,DWD层的明细宽表设计,DIM层的一致性维表建立,DWS层的汇总宽表和统计指标,以及ADS层的个性化指标和应用数据组装。每个层级都有特定的设计目的和存储格式,如orc+snappy压缩,以优化查询速度。
&spm=1001.2101.3001.5002&articleId=129062222&d=1&t=3&u=9832ac5dcf1e4e40808d8a54c9a3e13a)
1万+

被折叠的 条评论
为什么被折叠?



