Spark(55) -- StructuredStreaming -- Continuous Processing

最新推荐文章于 2024-04-18 23:36:19 发布

原创最新推荐文章于 2024-04-18 23:36:19 发布 · 579 阅读

标签

#spark

收录于

大数据学习专栏收录该内容

148 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark 2.3引入的连续处理模式，这是一种低延迟（约1ms）的流处理模式，提供至少一次容错保证。与微批处理相比，连续处理更接近传统流处理，一旦有数据可用即进行处理。文章涵盖了连续处理的概述、编程实现、支持的查询类型以及基准测试，展示了如何在连续模式下设置查询并确保集群资源充足以支撑处理需求。

连续处理（Continuous Processing）是Spark 2.3中引入的一种新的实验性流执行模式，可实现低的（~1 ms）端到端延迟，并且至少具有一次容错保证。将其与默认的微批处理（micro-batch processing）引擎相比较，该引擎可以实现一次性保证，但最多可实现~100ms的延迟。

1. 连续处理概述

连续处理（Continuous Processing）是“真正”的流处理，之所以说“真正”是因为 continuous mode是传统的流处理模式，通过运行一个long-running的operator用来处理数据。之前Spark Streaming是基于 micro-batch 模式的，就被很多人诟病不是“真正的”流式处理。continuous mode 处理模式只要一有数据可用就会进行处理，如下图所示：
在这里插入图片描述
epoch是input event stream中数据被发送给operator处理的最小单位，在处理过程中，epoch 的offset会被记录到WAL中。另外continuous模式下的snapshot存储使用的一致性算法是 Chandy-Lamport算法。
与micro-batch模式缺点和优点都很明显，缺点是不容易做扩展，优点是延迟更低。为什么延迟更低，下面两幅图目了然：