7. Anaconda
前提是要安装好hadoop集群+spark集群,参考地址Ubuntu安装hadoop集群 hive spark scala_ROBOT玲玉的博客-CSDN博客
7.1安装
下载Anaconda3-2021.05-Linux-x86_64.sh
下载地址:https://repo.anaconda.com/archive/index.html
执行命令:bash Anaconda3-2021.05-Linux-x86_64.sh -b
设置环境变量 vi /etc/profile,添加如下
#anaconda3
export PATH=/home/cyuser/anaconda3/bin:$PATH
export ANACONDA_PATH=/home/cyuser/anaconda3
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
生效环境变量source /etc/profile
注意:三个节点的服务器均要进行以上设置
验证设置是否成功
执行python –version
注意:有时环境变量设置不成功,也能显示python版本,要进入到如下目录,执行./python --version确定一下,版本是否一致
7.2测试
-
- 修改默认的web地址,执行jupyter notebook --generate-config命令生成配置文件。
修改jupyter_notebook_config.py
添加如下:c.NotebookApp.ip='server1'
说明:其中server1表示的为服务器的名称
-
- 新建文件夹~/pythonwork/ipynotebook,进入到该文件目录下,运行pyspark命令:
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
测试:访问地址http://server1:8888/
新建python文件
打开python文件,执行如下:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("yarn").enableHiveSupport().appName("Correlation").getOrCreate()
#日志输出级别
spark.sparkContext.setLogLevel("Error")
f=spark.sparkContext.textFile("hdfs://server1:9000/input/test.txt")
f.count()
spark.sparkContext.master
说明:输出local[*]表示此时的spark运行模式
-
- 以yarn模式运行命令
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" SPARK_HOME=/home/cyuser/spark-3.0.0-bin-hadoop3.2 HADOOP_CONF_DIR=/home/cyuser/hadoop3.1.0/etc/hadoop MASTER=yarn-client pyspark
再次执行上面的notebook中的python,内容,其中spark.sparkContext.master输出的为yarn,表示已经成功使用yarn模式执行。
本文档详细介绍了如何在Ubuntu上安装和配置Anaconda,以及如何将它与已安装的Hadoop和Spark集群集成。首先,通过下载并执行Anaconda安装脚本设置环境变量。接着,修改Jupyter Notebook配置以指定服务器地址,并测试在本地和Yarn模式下运行pyspark。最后,通过创建Python文件并读取HDFS上的数据验证了Yarn模式的正确配置。

4万+

被折叠的 条评论
为什么被折叠?



