版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
传送门:大数据系列文章目录
官方网址:http://spark.apache.org/、 http://spark.apache.org/sql/

DStream 是什么
SparkStreaming模块将流式数据封装的数据结构: DStream(Discretized Stream,离散化数
据流,连续不断的数据流) ,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。
离散数据流(DStream)是Spark Streaming最基本的抽象。它代表了一种连续的数据流,要
么从某种数据源提取数据,要么从其他数据流映射转换而来。 DStream内部是由一系列连续的RDD组成的,每个RDD都包含了特定时间间隔内的一批数据,如下图所示:

DStream本质上是一个: 一系列时间上连续的RDD(Seq[RDD]), DStream = Seq[RDD]。

对DStream的数据进行操作也是按照RDD为单位进行的。

通过WEB UI界面可知,对DStream调用函数操作,底层就是对R
订阅专栏 解锁全文
1531

被折叠的 条评论
为什么被折叠?



