实时数仓分层架构详解

最新推荐文章于 2026-04-06 15:06:31 发布

原创

最新推荐文章于 2026-04-06 15:06:31 发布 · 1.6k 阅读

标签

#架构 #数据库 #数据仓库 #实时仓库

首先，我们从数据仓库说起。

数据仓库的概念可以追溯到20世纪80年代，当时IBM的研究人员提出了商业数据仓库的概念。数据仓库概念的提出，是为了解决和数据流相关的各种问题，特别是多重数据复制带来的高成本问题。

数据仓库之父Bill Inmon在1991年出版的Building the Datla Warehouse一书中首次提出了数据仓库的概念。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理者的决策过程。这个定义一直延续至今，Bill Inmon也被称为数据仓库之父。

大约在2000年前后数据仓库开始进入中国，最开始主要集中在银行业和电信业。银行业建设数据仓库的动力来自于监管要求和1104监管报送系统，电信业的动力主要是推动省市级子公司汇总数据到总公司，构建统一的财务分析报表。两个行业的应用，为数据仓库概念在中国的普及奠定了基础。

在2010年以后，随着大数据技术的发展扩展到其它行业。互联网、零售、制造、医疗行业等各行各业都在推广数据仓库。

然后是数据仓库技术的发展。

在2010年前后，数据仓库系统主要由数据库、ETL平台、BI工具三个商业套件组成。常见的数据库主要是Oracle、DB2、Teradata，对应的ETL平台分别是IBM DataStage、Informatica PowerCenter、Microsoft SQL Server Integration Services (SSIS)，主流的商业BI平台主要是BIEE、Cognos、BO。对于以上这些名词可能今天的听众都很陌生，但是在2010年前后，这些就是数据仓库的代名词。

与此同时，随着移动互联网的兴起，以BAT为代表的互联网企业高喊着“去IOE”（去ioe是指在阿里巴巴的IT架构中，去掉IBM的小型机、Oracle数据库、EMC存储设备，代之以自己在开源软件基础上开发的系统。早在20世纪90年代，中国国内就逐渐形成了Oracle垄断电信行业，IBM垄断金融行业的格局。）口号，推动数据仓库从商业时代走向了开源时代，也从单体架构走向分布式架构。这里面最具代表性的就是阿里巴巴和腾讯公司分别2009年引入Hadoop集群，并且持续迭代升级并一直使用至今。互联网公司引入Hadoop体系的原因也很简单，因为传统的商业数据库已经无法满足互联网企业的数据存储计算需求了。传统的商业数据库扩展能力有限，硬件价格高昂，并发执行能力不足，Hadoop则刚好可以解决这些痛点，加上HiveQL可以满足大部分数据开发的需求，因此Hive数仓逐步替代了商业数据库。但是前期Hadoop、Hive、sqoop等开源软件并不成熟，需要投入大量的技术研发来完善这些软件，修复其中的bug，优化某些模块的性能或者功能，这个过程也比较缓慢，所以前期大家对Hadoop和Hive的感受都是很难用、不稳定，在2016年底，互联网公司开始引入Kafka。

后面的故事大家基本上都知道了，2016年前后，随着Hive2.3和Hive3.0版本的发布，Hadoop体系逐渐走向成熟稳定，Hortonworks和Cloudera公司分别为Hadoop生态贡献了Tez引擎、Ambari管理平台和Impala引擎，与此同时，内存计算引擎Spark强势崛起，为Hive提高了新的强大动力；Hive母公司Facebook又进一步开源了MPP框架的查询引擎Presto，大幅提升了Hive数仓的查询能力。

站在当前时间点，我们谈论的Hive数仓，一般默认包括HDFS存储系统、Yarn资源管理平台、Hive元数据管理、Spark计算引擎、Presto查询引擎，这些构成了离线数仓的技术栈。