饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

原创

于 2024-09-26 18:00:34 发布 · 2.1k 阅读

标签

作者：王沛斌@饿了么

小编导读：

本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online（Paimon x StarRocks，共话实时湖仓架构）上的分享。主要分为以下三个内容：

1. 饿了么实时数仓演进之路

2. 实时湖仓方案选型与探索

3. 实时湖仓规划及展望

饿了么实时数仓演进之路

饿了么典型实时应用场景

以上是饿了么在实时应用中的一些典型场景，和许多公司有相似之处。具体分为以下几个部分：

（1）实时 ETL：包括实时数据入湖入仓、实时数据建模、实时流量归因等。

（2）实时报表应用：包括营销活动直播、商家生意参谋、实时流量大盘、大促实时大屏、实时AB实验等。

（3）实时与在线应用的联动：包括商物流实时联动、实时人群特征及投放、个性化推荐、IOT信息同步、风控实时拦截等。

（4）实时监控与补偿：包括实时数据核对与订正、业务诊断预警、服务器异常监控等。

饿了么数据结构大图

饿了么整体数据架构大图主要由三个层面组成，分别为数据采集层，数据加工层，数据服务层。相关的数据组件依托阿里云组件。整体数据采集使用 DataX 和 DRC 链路来进行数据库 Binlog 的采集。日志采集主要使用内部的Omni 平台来收集用户行为数据，而应用层的日志通过SLS和TT来进行相应的日志接入。

数据仓库这一层是一个重点。一个是存储方面可以分为两块：一块是近实时的湖仓，采用 Paimon On OSS方案来进行存储；而对于实时性要求更高的数据，使用的是 TT 和 SLS。在数仓计算层，使用的是 Dataphin、VVP 和 Flink 三件套。在数据服务层，主要的数据存储使用 ADB 和 Hologres，最近引入了 StarRocks 来结合湖仓进行落地。在这个存储基础上，通过内部的数据服务应用（包括繁星、方舟、FBI、量子等组件）来提供相应的数据服务。通过以上数据服务，构建了整体的数据产品和数据解决方案。

最核心的两个点是计算和存储。上图右边展示了整体计算变化的情况。右边第一张图显示了我们内部 Blink 和 Flink 的用量曲线。可以观察到，早期更多使用的是 Blink，随着 Flink 的进一步拓展，到 2023 年左右，开始大规模切换到 Flink。计划在今年将所有 Blink下线，全部统一切换到 Flink。第二张图显示的是存储层的情况。存储层早期更多使用的是 ADB，现阶段更多使用 Hologres 来支持。未来 Hologres 的用量也会逐步扩大，并引入类似 StarRocks 这样的 OLAP 引擎，以提升团