hadoop集群spark配置，jupyter notebook，ubuntu

最新推荐文章于 2026-04-30 10:58:21 发布

原创

最新推荐文章于 2026-04-30 10:58:21 发布 · 808 阅读

标签

#spark-on-yarn #jupyter #spark.read.csv #ubuntu #hadoop集群

收录于

在Ubuntu环境中，详细介绍了如何下载安装并配置Jupyter Notebook，同时讲解了如何安装findspark和pyspark包。通过findspark.init()设置Spark客户端路径和Python路径，接着演示了如何在Jupyter Notebook中导入SparkContext并读取HDFS上的CSV文件。

下载安装jupyter notebook，并配置，详见另一篇博客，jupyter notebook配置
安装python包 findspark、pyspark。
用findspark.init函数配置集群中spark-client2路径，python路径。

import findspark

findspark.init(spark_home="/usr/hdp/current/spark2-client/",python_path="/usr/bin/python3")

from pyspark import SparkConf,SparkContext,SQLContext

导入sparkcontext

conf = SparkConf().setMaster("yarn").setAppName("http")

sc = SparkContext(conf = conf)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

your_blue_sky

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

docker搭建jupyter+spark+hadoop环境详细版

吕海洋的博客

02-14

2569

目录一、镜像介绍二、部署的步骤和方法: 一、镜像介绍如果想要直接部署可以使用命令下载镜像 docker pull wuchenlhy/jupyter_spark_hadoop:3.1 启动镜像命令 docker run -itd \ --name jupyter_spark_hadoop \ -p 8888:8888 \ -p 8088:8088 \ -p 8080:8080 \ -p 9870:9870 \ -v /Users/lvh

参与评论您还未登录，请先登录后发表或查看评论

Hadoop+spark+jupyter环境搭建（一）：Hadoop平台的搭建

myz的博客

05-22

1904

一、集群配置信息集群为1+1，1台master，1台slave的结构配置（两台一致）：系统：Ubuntu 14内核：4核内存：8G 两台主机的信息：主机名IPmyz-master192.168.0.212浮动IP:210.14.69.105myz-slave192.168.0.213 二、集群搭建过程1. 新建hadoop用户，用户密码设置，sudo操作不需要密码等，每台主机一样登录root...

Kueue 性能优化：大规模作业调度场景下的终极指南

最新发布

gitblog_00458的博客

04-30

369

Kueue 作为 Kubernetes 原生的作业排队系统，在大规模作业调度场景下需要精细的性能调优才能发挥最佳效能。本文将分享经过实践验证的性能优化策略，帮助你在高并发环境中实现作业调度的高效与稳定。 ## 1. 性能测试框架：构建可量化的优化基础要优化 Kueue 性能，首先需要建立科学的测试体系。Kueue 提供了完整的性能测试框架，位于 `test/performance/sched

使用MobaXterm tunneling访问集群（服务器）jupyter notebook

木子山石的学习笔记

11-22

2289

想要在本地计算机C上使用高性能服务器上的计算节点运行jupyter notebook相关的代码。高性能服务器上通常只有一个公网ip用于账户登陆管理，但有多个计算节点，需要使用公网IP通过SSH方式登入管理节点A，并使用SSH二次登陆计算节点B，此时如果需要在本地计算机C上想要操作计算节点B的计算资源，例如使用节点B的jupyter notebook，需要进行单独的配置。

大数据学习环境配置——windows和macOS下的python+mysql+hadoop+spark配置

夏洛克江户川

04-30

2353

随着大数据的热度与市场需求不断提升，学习大数据的小伙伴越来越多，然而，大家的个人电脑平时可能都用做了打游戏，看剧，逛论坛，没有配置过一套适合于学习大数据的环境，于是乎感叹万事开头难，今天，就带大家打开大数据世界的大门，带领大家在自己的电脑下配置Hadoop+Spark+Mysql，当然，还有Python3+Jupyter Notebook的开发环境。

hadoop spark jupyterbook 打开过程

m0_62224692的博客

03-09

2027

2917 Jpsjps3090 Jps。

Spark集群安装和部署(六)-----pyspark更新Python版本、Notebook安装配置、安装pip

猪逻辑公园

07-08

3361

默认安装好spark后，pyspark环境中Python为2，需要更新为3 Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubuntu16.0.4安装...

Ubuntu上安装Anaconda

malingyu的专栏

10-21

960

Anaconda python

Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例

weixin_33882443的博客

07-19

114

Ubuntu16.04安装Hadoop2.6+Spark1.6，并安装python开发工具Jupyter notebook，通过pyspark测试一个实例，調通整个Spark+hadoop伪分布式开发环境。主要内容：配置root用户，配置Hadoop，Spark环境变量，Hadoop伪分布式安装并测试实例，spark安装并通过Jupter notebook进行开发实例，...

Spark 3.2上执行安装jupyter notebook

zhu2525wei的博客

07-21

845

jupyter

【HiveSQL】查询练习(pandas连接hadoop, jupyter 输出)

licn188的博客

08-05

700

【HiveSQL】查询练习(pandas连接hadoop, jupyter 输出)

Hadoop学习笔记(9)-Spark的jupyter notebook开发环境搭建

BeiXi's Blog

06-02

1550

Spark的jupyter notebook开发环境搭建安装Pythonjupyter notebook介绍与安装jupyter notebook简介jupyter notebook的安装连接jupyter与spark 安装Python 更新软件包，以免有些安装包找不到。 sudo apt-get update 安装 python3，默认 python3 将安装最新版本，一般Ubuntu都自带python在 /usr/local目录下 sudo apt-get install python3 安装pyt

[译] Python 与大数据：Airflow、 Jupyter Notebook 与 Hadoop 3、Spark、Presto

weixin_34124577的博客

07-27

721

原文地址：Python & Big Data: Airflow & Jupyter Notebook with Hadoop 3, Spark & Presto 原文作者：Mark Litwintschik 译文出自：掘金翻译计划本文永久链接：github.com/xitu/gold-m… 译者：cf020031308 校对者：yqian1991 最近几年里，Py...

Spark Client和Cluster两种运行模式的工作流程

专注于后端开发，时常接触大数据、人工智能等

10-23

1946

1.client mode: Inclientmode, the driver is launched in the same process as the client that submits the application..也就是说在Client模式下，Driver进程会在当前客户端启动，客户端进程一直存在直到应用程序运行结束。该模式下的工作流程图主要如下：工作流程如下...

linux anaconda安装_如何在Linux集群上配置Jupyter Notebook服务，并用本地电脑浏览器访问...

weixin_39646084的博客

12-01

728

以往我们用Jupyter Notebook都是在自己电脑安装Anaconda，然后打开Jupyter服务，但是有时候我们运行的命令需要的计算量和内存比较大，所以如果能在Linux集群上配置Jupyter Notebook服务，再以自己的电脑浏览器访问这个服务就能体验Linux集群计算资源带来的便利。具体实现有以下5个步骤：1.Linux集群上安装Anaconda2.生成jupyter配置...

为Spark集群配置jupyter notebook的Spark kernel

我的博客

05-10

3315

在Jupyter的官方github的kernel list里有一个sparkmagic，安装之后就可以直接在jupyter 中创建Spark、PySpark、PySpark3和SparkR这几种kernel的notebook了。下面介绍一下安装过程。安装Livy sparkmagic是基于Livy的，必须先在集群的master上安装好Livy。 Livy的安装很简单（在mast...

Hadoop+spark+jupyter环境搭建（三）：Pyspark+jupyter部署在Linux

myz的博客

05-22

4134

我们已经实现了Spark on Yarn的搭建，但我们还希望有一个友好的开发界面，也便于展示成果，因此我们选择了jupyter。他的本质就是一个 web app，也支持多种语言，完全满足我们的要求。1.安装python3下载包wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0a1.tar.xz(自己根据需要选择python版...

jupyter中使用pyspark连接spark集群