数据仓库领域常见建模方法及实例演示 | StartDT Tech Lab 16

最新推荐文章于 2023-12-04 13:03:54 发布

原创

最新推荐文章于 2023-12-04 13:03:54 发布 · 726 阅读

·

0

·

标签

#数据仓库 #数据库 #大数据

本文探讨了数据仓库中的E-R模型、维度模型（包括星型与雪花模型）和DataVault模型，阐述了它们在性能、成本和效率上的平衡策略，适合数据从业者理解和实践数仓建模.

写在前面

这是奇点云全新技术专栏「StartDT Tech Lab」的第16期。

在这里，我们聚焦数据技术，分享方法论与实战。一线的项目经历，丰富的实践经验，真实的总结体会…滑到文末，可以看到我们的往期内容。

本篇由奇点云资深数据开发工程师「云祁」带来：

作者：云祁

阅读时间：约13分钟

今天和大家聊聊数仓常见的一些建模方法和具体的实例演示。

1. 为什么需要数据建模？

在开始今天的话题之前，我们不妨思考下，到底为什么需要进行数据建模？

随着从IT时代到DT时代的跨越，数据开始出现爆发式的增长，这当中产生的价值也是不言而喻。如何将这些数据进行有序、有结构地分类组织存储，是我们所有数据从业者都要面临的一个挑战。

如果把数据看作图书馆里的书，我们希望看到它们在书架上分门别类地放置，而不是乱糟糟地堆砌在一起。

大数据的数仓建模正是通过建模的方法，更好地组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点，一般我们会从以下四点考虑：

性能：能够快速查询所需的数据，减少数据I/O的吞吐；

成本：减少不必要的数据冗余，实现计算结果的复用，降低大数据系统中的存储成本和计算成本；

效率：改善使用数据的体验，提高使用效率；

质量：改善数据统计口径的不一致性，减少数据计算错误的可能性，提供高质量的、一致的数据访问平台。

因此，毋庸置疑，大数据系统、数据平台都需要数据模型方法来帮助更好地组织和存储数据。数据建模的工作，也正是围绕上述四个指标取得最佳的平衡而努力。

2. 从 OLTP 和 OLAP 系统区别

看模型方法论的选择

OLTP系统通常面向的主要数据操作是随机读写，主要采用3NF的实体关系模型存储数据，从而在事务处理中解决数据的冗余和一致性问题。

OLAP系统面向的主要数据操作是批量读写，事务处理中的一致性不是OLAP所关注的，其主要关注数据的整合，以及在一次性的复杂大数据查询和处理的性能，因此它需要采用不同的建模方法，例如维度建模。

3. 典型的数据仓库建模方法论

数据仓库本质是从数据库衍生出来的，所以数据仓库的建模也是不断衍生发展的。

从最早的借鉴关系型数据库理论的范式建模，到逐渐提出维度建模等等，越往后建模的要求越高

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。