Spark学习笔记01-Local模式/Standaline模式安装测试

本文详细介绍Spark的安装与使用,包括本地模式和Standalone模式的部署,通过求PI和WordCount案例实操,适合初学者快速掌握Spark大数据分析计算引擎。

1、Spark简介

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

2、local模式安装及测试

       Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。
       从官网下载Spark的安装包,因为我的Hadoop是2.7.2,所以我下载的是spark-2.1.1-bin-hadoop2.7.tgz。
下载地址:https://spark.apache.org/downloads.html
       下载完成后上传并解压:

[root@hadoop102 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[root@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7 spark-local

官方案例测试01
官方提供了一个求PI的案例

[root@hadoop102 spark-local]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.11-2.1.1.jar \
10

在这里插入图片描述
官方案例测试02
WordCount案例
在Spark-local目录下准备一个文件夹input并创建两个文件1.txt、2.txt。在文件输入以下内容:
在这里插入图片描述
启动Spark-shell

[root@hadoop102 spark-local]# bin/spark-shell 

在这里插入图片描述
输入命令:

sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述
同时可以在hadoop102:4040查看运行情况
在这里插入图片描述
Local模式部署完成。

3、Standalone模式

再次解压jar包并命名为Spark-standalone

[root@hadoop102 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[root@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7 spark-standalone

进入conf目录修改配置文件

[root@hadoop102 spark-standalone]$ cd conf

修改slaves文件,添加work节点

[root@hadoop102 conf]$ mv slaves.template slaves
[root@hadoop102 conf]$ vim slaves
hadoop102
hadoop103
hadoop104

修改spark-env.sh文件,添加master节点

[root@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
[root@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

分发spark-standalone包

[root@hadoop102 module]$ xsync spark-standalone/

启动spark集群

[root@hadoop102 spark-standalone]$ sbin/start-all.sh

注意:如果遇到 “JAVA_HOME not set” 异常,可以在sbin目录下的spark-config.sh 文件中加入如下配置:

export JAVA_HOME=XXXX

官方求PI案例

[root@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
10

在这里插入图片描述
网页查看:hadoop102:8080(master web的端口)
在这里插入图片描述
运行流程
       Spark有standalone-client和standalone-cluster两种模式,主要区别在于:Driver程序的运行节点。
client模式
在这里插入图片描述
cluster模式
在这里插入图片描述
最明显的区别是client会将计算结果打印到控制台,而cluster模式不会。默认是client模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值