- 下载安装jupyter notebook,并配置,详见另一篇博客,jupyter notebook配置
- 安装python包 findspark、pyspark。
- 用findspark.init函数配置集群中spark-client2路径,python路径。
import findspark
findspark.init(spark_home="/usr/hdp/current/spark2-client/",python_path="/usr/bin/python3")
from pyspark import SparkConf,SparkContext,SQLContext
- 导入sparkcontext
conf = SparkConf().setMaster("yarn").setAppName("http")
sc = SparkContext(conf = conf)

在Ubuntu环境中,详细介绍了如何下载安装并配置Jupyter Notebook,同时讲解了如何安装findspark和pyspark包。通过findspark.init()设置Spark客户端路径和Python路径,接着演示了如何在Jupyter Notebook中导入SparkContext并读取HDFS上的CSV文件。

2569

被折叠的 条评论
为什么被折叠?



