目录
原文大佬的这篇StarRocks数仓构建有借鉴意义的,这些摘抄下来用作沉淀学习。如有侵权,请告知~
前言
作为百事的子公司,随着业务快速与集团接轨,百草味越来越多的业务需要通过数据来驱动,变得更加合理化、规范化以及高效化。xx老师主导百草味全渠道从0到1的数据平台建设,指标体系建设,数仓模型设计及优化工作。
一、数据平台演进心得

- 2017 年:为了快速产出,基于CDH 5.15.0 搭建了一套大数据平台,开发了一些基础功能和几百张报表,实时的报表直接使用了 Stream Computer 和 Quick BI,离线报表以 Apache Hive 为主。
- 2019 年:仍然以 CDH 为主,中间经过两次版本迭代,升级为 6.3.2. 实时数据换成了 Apache Spark 和 Apache Kafka,中间封装了一些工具供团队开发。
- 2020 年:被百事收购以后,线下机房由于不符合合规要求,于是选择上云。考虑维护成本,选择了 Databricks,采用 Data Lake Formation(DLF)和对象存储 OSS 的存储架构。
- 2022 年:由于业务对算力的要求,选择了 StarRocks 和 CloudCanal。
根据上面的探索总结出两种大数据开发平台的优劣:
- 基于Hadoop构建:链路长,组件多,数据多次拷贝,维护量大
- 基于StarRocks构建:链路短,效率高,开发人员专注业务
1.1 数字化流程

数字化流程大致的进程为:信息化-->数字化--> 再延伸到统一数据平台-->可视化分析。40 年前便有数据仓库的概念,慢慢延伸到数据湖和数据中台。目前企业中的实践,一般以数据仓库为底座,再向上层应用延展。流程需要先有信息化的建设,才有数字化的沉淀,然后进行数字化的赋能。
1.2 早期数据架构

在数仓构建的过程中会遇到各种问题,例如


3288

被折叠的 条评论
为什么被折叠?



