StarRocks实战——百草味快消业务场景下的数仓搭建

目录

前言

一、数据平台演进心得

1.1 数字化流程

1.2 早期数据架构

1.3 新数据架构

1.4 大数据常用组件

二、技术成长源于业务变更

2.1 不断变化的业务需求

2.1 业务建模

2.3 场景->模型->指标

三、概念先行OR问题驱动

四、数据架构未来构想

  原文大佬的这篇StarRocks数仓构建有借鉴意义的,这些摘抄下来用作沉淀学习。如有侵权,请告知~

前言

    作为百事的子公司,随着业务快速与集团接轨,百草味越来越多的业务需要通过数据来驱动,变得更加合理化、规范化以及高效化。xx老师主导百草味全渠道从0到1的数据平台建设,指标体系建设,数仓模型设计及优化工作

一、数据平台演进心得

  • 2017 年:为了快速产出,基于CDH 5.15.0 搭建了一套大数据平台,开发了一些基础功能和几百张报表,实时的报表直接使用了 Stream Computer 和 Quick BI,离线报表以 Apache Hive 为主。
  • 2019 年:仍然以 CDH 为主,中间经过两次版本迭代,升级为 6.3.2. 实时数据换成了 Apache Spark 和 Apache Kafka,中间封装了一些工具供团队开发。
  • 2020 年:被百事收购以后,线下机房由于不符合合规要求,于是选择上云。考虑维护成本,选择了 Databricks,采用 Data Lake Formation(DLF)和对象存储 OSS 的存储架构。
  • 2022 年:由于业务对算力的要求,选择了 StarRocks 和 CloudCanal。

根据上面的探索总结出两种大数据开发平台的优劣:

  • 基于Hadoop构建:链路长,组件多,数据多次拷贝,维护量大
  • 基于StarRocks构建:链路短,效率高,开发人员专注业务

1.1 数字化流程

    数字化流程大致的进程为:信息化-->数字化--> 再延伸到统一数据平台-->可视化分析。40 年前便有数据仓库的概念,慢慢延伸到数据湖和数据中台。目前企业中的实践,一般以数据仓库为底座,再向上层应用延展。流程需要先有信息化的建设,才有数字化的沉淀,然后进行数字化的赋能。

1.2 早期数据架构

    在数仓构建的过程中会遇到各种问题,例如

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值