
在很多实时数据处理的场景中,都需要用到流式处理(Stream Process)框架,Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming(Spark 2.0出现),先阐述流式处理框架,之后介绍Spark Streaming框架使用。
1. Streaming 应用场景
如下的场景需求, 仅仅通过传统的批处理/离线处理/离线计算/处理历史数据是无法完成的:
-
1)、电商实时大屏:每年双十一时,淘宝和京东实时订单销售额和产品数量大屏展示,要求:
- 数据量大,可能每秒钟上万甚至几十万订单量
- 快速的处理,统计出不同维度销售订单额,以供前端大屏展示

-
2)、商品推荐:京东和淘宝的商城在购物车、商品详情等地方都有商品推荐的模块,商品推荐的要求:
- 快速的处理, 加入购物车以后就需要迅速的进行推荐
- 数据量大
- 需要使用一些推荐算法
本文介绍了Spark Streaming在实时数据处理中的应用场景,包括电商实时大屏、商品推荐和工业大数据等。文章还详细讲解了Lambda架构,批处理层、速度层和服务层的功能。此外,对比了原生流处理和微批处理两种流式计算模式,并讨论了Spark Streaming的核心计算思想和优势。
订阅专栏 解锁全文

1907

被折叠的 条评论
为什么被折叠?



