什么是数据仓库?
数据仓库(Data Warehouse,简称DW)是一种面向分析和决策的数据存储系统,它将企业中分散的、异构的数据按照一定的主题和模型进行集成和存储,为数据分析、报表生成以及商业智能(BI)提供支持。数据仓库是大数据体系的重要组成部分,主要用于对大量历史数据的存储、处理和分析。
简单来说,数据仓库是一个为数据分析和业务决策服务的系统,通过整合来自不同来源的数据,形成面向主题的、可查询的、历史性的统一数据存储平台。
数据仓库的特点
数据仓库具有以下几个显著特点:
-
面向主题(Subject-Oriented)
数据仓库的数据是围绕业务主题组织的,而不是按操作性事务组织。例如,在一个电商企业的数据仓库中,数据可以按“客户”、“订单”、“产品”等主题存储,而不是按传统的数据库表结构分散存储。这种主题划分的方式更方便进行业务分析和数据挖掘。 -
集成性(Integrated)
数据仓库的数据来源于多个异构的业务系统,例如CRM(客户关系管理系统)、ERP(企业资源计划系统)、电商平台等。由于不同系统的数据格式、结构和编码规则可能不同,数据仓库会对数据进行清洗、转换和整合,形成一致性的数据存储。 -
非易失性(Non-Volatile)
数据仓库中的数据一般是静态的,不会频繁修改。与事务型数据库不同,数据仓库主要存储历史数据,并为查询和分析服务,数据一旦加载后通常是只读的。 -
时间性(Time-Variant)
数据仓库会存储数据的历史记录,并按时间维度组织数据。例如,一个电商企业的数据仓库可以存储过去几年的订单数据,以便进行趋势分析。这种“随时间变化”的特性使得数据仓库能够支持多维度的分析和数据挖掘。
数据仓库的架构
数据仓库的架构通常可以分为以下几个部分:


2712

被折叠的 条评论
为什么被折叠?



