Spark集群搭建的三种方式详解

国科大学习生活(期末复习资料、课程大作业解析、学习文档等): 文章专栏(点击跳转)
大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转)

1、Spark集群常见运行环境

  • Local 模式:
    在本地模式下,Spark 将作为一个单独的 Java 进程在本地运行,不需要启动额外的集群资源。本地模式适用于开发和调试,可以快速运行 Spark 应用程序并查看结果,而不需要配置和管理集群资源。

  • Standalone 模式:
    Standalone 模式是 Spark 提供的最简单的部署方式,也是默认的部署模式。在 Standalone 模式下,Spark 自身作为一个独立的集群运行,可以通过启动 Spark Master 和 Spark Worker 进程来启动一个完整的 Spark 集群。Standalone 模式适用于开发和测试环境,也可以用于小型生产环境。

  • Apache Hadoop YARN:
    YARN(Yet Another Resource Negotiator)是 Hadoop 2.x 提供的资源管理器,用于在 Hadoop 集群上管理资源和调度作业。
    Spark 可以作为 YARN 上的一个应用程序运行,通过 YARN 向 Hadoop 集群申请资源并执行作业。在 YARN 上运行 Spark 可以充分利用 Hadoop 集群的资源管理和调度能力,适用于大规模生产环境。

  • Mesos & K8S(Kubernetes) 模式
    在这里插入图片描述

  • Windows模式:
    在自己学习时,每次都需要启动虚拟机,启动集群,这是一个比较繁琐的过程,并且会占大量的系统资源,导致系统执行变慢,不仅仅影响学习效果,也影响学习进度,Spark 非常暖心地提供了可以在windows系统下启动本地集群的方式,这样,在不使用虚拟机的情况下,也能学习Spark的基本使用!

2、环境搭建详细过程

1、Local模式

所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等,在IDEA中运行代码的环境我们称之为开发环境,不太一样。
解压缩文件
spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中不要包含中文或空格。
学习所有资料如下,包含spark压缩包等:

链接:https://pan.baidu.com/s/1KWVgyBWADgqV1tK1HXlbsg
提取码:uuzu
–来自百度网盘超级会员V4的分享

解压缩到/opt/module

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module 

重命名文件为:spark-local

cd /opt/module  
mv spark-3.0.0-bin-hadoop3.2 spark-local

启动 Local 环境
进入解压缩后的路径,执行如下指令:

bin/spark-shell

在这里插入图片描述

启动成功后,可以输入网址进行Web UI监控页面访问
http://虚拟机地址:4040

在这里插入图片描述

命令行工具
在解压缩文件夹下的data目录中,添加word.txt文件。在命令行工具中执行如下代码指令(和IDEA中代码简化版一致)

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述

退出本地模式
按键Ctrl+C或输入Scala指令–》:quit
如何提交应用?

bin/spark-submit \ 
--class org.apache.spark.examples.SparkPi \ 
--master local[2] \ 
./examples/jars/spark-examples_2.12-3.0.0.jar \ 
10 
  1. –class 表示要执行程序的主类,此处可以更换为咱们自己写的应用程序
  2. –master local[2] 部署模式,默认为本地模式,数字表示分配的虚拟CPU核数量
  3. spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包,实际使用时,可以设定为咱们自己打的jar包
  4. 数字10表示程序的入口参数,用于设定当前应用的任务数量

2、Standalone 模式

local 本地模式毕竟只是用来进行练习演示的,真实工作中还是要将应用提交到对应的集群中去执行,这里我们来看看只使用Spark自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式。Spark的Standalone 模式体现了经典的master-slave模式。

解压缩文件
准备三台虚拟机(使用之前有Hadoop环境的机器即可),分别将spark-3.0.0-bin-hadoop3.2.tgz 文件上传到虚拟机上并解压缩在/opt/module中

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module 

重命名文件

cd /opt/module  
mv 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蹒跚者_Stan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值