数据中台讲解第一部分

原创于 2026-03-05 10:06:51 发布 · 471 阅读

·

10

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#大数据 #系统架构 #微服务

大数据同时被 3 个专栏收录

72 篇文章

订阅专栏

51 篇文章

订阅专栏

9 篇文章

订阅专栏

数据中台通常分为以下几个逻辑层，每一层都有明确的职责：

1. 数据采集层（边缘层/源接入层）

目标： 多源异构数据实时/批量接入。
大厂实践：
- 实时采集： Canal（解析MySQL binlog） + Kafka（消息队列），解决业务库数据实时同步问题。
- 日志采集： 自研或基于Flume的埋点SDK，通过WebServer/App端上报日志。
- 批量同步： DataX（阿里开源）或SeaTunnel，解决离线全量数据同步。

2. 数据存储与计算层（基础引擎）

目标： 提供高可用、弹性伸缩的存储计算资源。
大厂实践：
- 湖仓一体： Hudi/Iceberg + Spark/Flink 构建数据湖，解决传统数仓无法直接管理非结构化数据及实时更新的痛点。
- 离线计算： Hive/Spark/MaxCompute（阿里云）。
- 实时计算： Flink（大厂标配，用于秒级延迟的计算）。

3. 数据公共层（核心资产层）

这是数据中台的核心灵魂，也是区别于普通数据平台的关键。严格遵循维度建模（Kimball方法论）。

ODS（操作数据层）： 原封不动引入源数据，仅作备份。
CDM（公共维度模型层） —— 核心：
- DWD（明细层）： 进行事务型事实表建设，对业务过程进行沉淀。关键操作：进行维度退化（将维度属性字段退化到事实表）和实时/离线一致性的处理。
- DWS（汇总层）： 面向主题的公共汇总层（如：日活汇总表、交易汇总表）。原则：复用而不是复制。如果一个指标在多处使用，必须由中台统一在DWS层加工。
ADS（应用数据层）： 按需生成个性化的数据表，供特定报表或应用使用。

4. 数据开发治理层（工具平台）

大厂不仅仅是在写SQL，而是构建了一套可视化的平台能力：

数据开发IDE： 可视化的离线/实时任务开发、调度系统（DolphinScheduler/Airflow的替代或自研），支持版本控制和自动运维。
数据质量中心： 内置监控规则（如：表行数波动率、字段空值率、业务主键唯一性），一旦任务产出数据质量不达标，自动阻断下游任务（避免脏数据扩散）。
数据地图与血缘： 自动解析SQL，构建字段级的数据血缘关系。用于定位“这个字段是从哪里来的？”以及“修改这张表会影响下游哪些报表？”

5. 数据服务层（统一出口层）

将DWS/ADS层的数据封装成API。

统一API网关： 提供SQL化查询接口、预缓存接口。
逻辑模型： 对外屏蔽底层物理表结构，哪怕底层表结构改变，API输出格式不变（解耦）。
流控与鉴权： 限流、熔断、黑白名单，防止数据接口被恶意调用拖垮数据库。

6. 数据应用层（价值变现）

BI报表： 基于公共层的自助取数与固定报表。
用户画像/标签： 基于OneEntity构建的标签体系，输出给推荐系统或营销系统。
数据洞察/即席查询： 对接Hue、DBeaver或自研SQL查询工具。

经验中的关键落地细节

1. 指标体系的管理（指标规范化）

原子指标 + 修饰词 + 维度 = 派生指标。这是阿里的经典做法。
- 原子指标：支付金额。
- 修饰词：海外用户。
- 维度：时间（昨天）。
- 派生指标：昨天海外用户的支付金额。
痛点： 如果没有这套体系，A部门建一个“GMV”（成交总额），B部门建一个“总交易额”，口径对不上，就是“表哥表姐”吵架的根源。

2. 数据治理的血缘与全链路追踪

场景： 运营发现今天早上的日报数据异常（暴跌或暴涨）。
大厂解法： 打开数据地图，点击指标，查看字段级血缘。系统会自动展示：
- 上游：ODS原始日志 -> DWD清洗逻辑 -> DWS汇总逻辑。
- 下游：哪些BI看板、哪些数据API受到影响。
- 定位问题：是源业务库变更？ETL任务报错？还是逻辑代码BUG？

3. 实时与离线的统一（流批一体）

早期大厂通常是两套人（实时组、离线组），导致口径不一致（离线日活和实时日活对不上）。
现在趋势： 基于Flink SQL + Iceberg/Hudi，实现流批一体的语义层。同一套SQL逻辑，既可以跑离线T-1（前一天）数据，也可以跑实时数据，保证结果一致性。

4. 组织架构保障（中台部门定位）

强中台模式（阿里）： 数据中台是一个独立的技术/产品部门，KPI考核是“数据复用率”和“数据服务调用量”。业务部门不允许自己拉宽表，必须向中台提需求。
联邦模式（部分互联网大厂）： 中台建公共层（DWD/DWS），各业务线有自己的数据开发（隶属业务线）负责ADS层，但需遵守中台规范。
避坑指南： 如果缺乏组织保障和“一刀切”的治理决心，数据中台往往会沦为“数据ETL工具集”，最终变成数据沼泽。

避坑指南（别人踩过的雷）

不要上来就做中台： 如果企业连基础的BI报表都没有，业务流程都未线上化，先做数仓建设，不要直接建设中台。中台是解决“重复造轮子”问题的，如果只有一辆车（一个业务线），不需要修八车道高速。
警惕指标爆炸： 业务方提一个需求，就建一个指标/一张表。中台需要有“指标评审委员会”，拒绝高度个性化且无复用价值的指标进入公共层。
数据安全与合规： 随着《数据安全法》出台，大厂中台必须内置数据分级分类。例如：手机号、身份证号在DWD层必须脱敏，在API层按权限解密。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。