SparkCore系列-10、Spark 内核调度

最新推荐文章于 2026-06-21 23:36:46 发布

原创最新推荐文章于 2026-06-21 23:36:46 发布 · 336 阅读

·

0

·

标签

#spark #大数据 #hadoop

大数据专栏专栏收录该内容

83 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨Spark的任务调度机制，从窄依赖和宽依赖的角度分析RDD的依赖关系，阐述DAG和Stage的划分原则。详细讲解了Shuffle过程以及Job调度流程，强调了并行度对资源利用的重要性，并提供了设置Task数量的指导，旨在优化Spark应用的性能和资源利用率。

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

传送门：大数据系列文章目录

官方网址：http://spark.apache.org/、https://databricks.com/spark/about
在这里插入图片描述

目录

回顾
Spark core的内核调度介绍
RDD依赖
DAG和Stage
Spark Shuffle
Job 调度流程
Spark 基本概念
Spark 并行度
下回分解

回顾

上篇文章介绍了Spark的共享变量，使用共享变量能够提升效率，解决内存。

Spark core的内核调度介绍

Spark的核心是根据RDD来实现的， Spark Scheduler则为Spark核心实现的重要一环，其作用
就是任务调度。 Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依
赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行。基于Spark的任
务调度原理，可以合理规划资源利用，做到尽可能用最少的资源高效地完成任务计算。

以词频统计WordCount程序为例， Job执行是DAG图：
在这里插入图片描述

RDD依赖

RDD 的容错机制是通过将 RDD 间转移操作构建成有向无环图来实现的。从抽象的角度看，
RDD 间存在着血统继承关系，其本质上是 RDD之间的依赖（Dependency）关系。

从图的角度看， RDD 为节点，在一次转换操作中，创建得到的新 RDD 称为子 RDD，同时会
产生新的边，即依赖关系，子 RDD 依赖向上依赖的 RDD 便是父 RDD，可能会存在多个父 RDD。
可以将这种依赖关系进一步分为两类，分别是窄依赖（NarrowD

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术武器库 一句真诚的谢谢，胜过千言万语

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。