Spark学习笔记01-Local模式/Standaline模式安装测试

最新推荐文章于 2025-04-22 09:54:19 发布

原创最新推荐文章于 2025-04-22 09:54:19 发布 · 305 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#spark

Spark 专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍Spark的安装与使用，包括本地模式和Standalone模式的部署，通过求PI和WordCount案例实操，适合初学者快速掌握Spark大数据分析计算引擎。

1、Spark简介

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

2、local模式安装及测试

       Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。
       从官网下载Spark的安装包，因为我的Hadoop是2.7.2，所以我下载的是spark-2.1.1-bin-hadoop2.7.tgz。
下载地址：https://spark.apache.org/downloads.html
       下载完成后上传并解压：

[root@hadoop102 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[root@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7 spark-local

官方案例测试01
官方提供了一个求PI的案例

[root@hadoop102 spark-local]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.11-2.1.1.jar \
10

在这里插入图片描述
官方案例测试02
WordCount案例
在Spark-local目录下准备一个文件夹input并创建两个文件1.txt、2.txt。在文件输入以下内容：

启动Spark-shell

[root@hadoop102 spark-local]# bin/spark-shell

在这里插入图片描述
输入命令：

sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述
同时可以在hadoop102:4040查看运行情况

Local模式部署完成。

3、Standalone模式

再次解压jar包并命名为Spark-standalone

[root@hadoop102 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[root@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7 spark-standalone

进入conf目录修改配置文件

[root@hadoop102 spark-standalone]$ cd conf

修改slaves文件，添加work节点

[root@hadoop102 conf]$ mv slaves.template slaves
[root@hadoop102 conf]$ vim slaves
hadoop102
hadoop103
hadoop104

修改spark-env.sh文件，添加master节点

[root@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
[root@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

分发spark-standalone包

[root@hadoop102 module]$ xsync spark-standalone/

启动spark集群

[root@hadoop102 spark-standalone]$ sbin/start-all.sh

注意：如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置：

export JAVA_HOME=XXXX

官方求PI案例

[root@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
10

在这里插入图片描述
网页查看：hadoop102:8080（master web的端口)

运行流程
Spark有standalone-client和standalone-cluster两种模式，主要区别在于：Driver程序的运行节点。
client模式

cluster模式

最明显的区别是client会将计算结果打印到控制台，而cluster模式不会。默认是client模式。