-
关于安装
可直接copy节点上的hadoop包,和spark包,到目的机器,就可以执行。
但里面的python,java 路径需要在spark里面指定。 -
关于运行
1)clinet 模式,本地运行测试,driver/excut都在本地,日志也是在本地。
2)cluster 模式,driver在集群的master上面 ,查看日志的方式:yarn logs -applicationId -
关于内存
1)driver 一个driver, 多个excute. 即master, excute节点。
2) driver ,一般是最终结果要拉回driver. 一般的create ,insert 这种的话,不需要dirver拉回数据,所以内存也不需要太大。 -
关于重要配置文件
1)spark里面一般查看conf文件,spark-defaluts.sh spark-en.sh ,可以配置driver内存,excute个数
2)hadoop,/usr/local/service/hadoop/etc/hadoop 目录下, core-site.xml, hdfs-site.xml, yarn-site.xml 。 这里面可以看master ip -
关于hdfs与yarn
1)hdfs是文件存储系统,我们这边用的是cos(腾讯云的),cos对外是路径,可以写文件,和读取文件。
2)如果需要把东西copy到hdfs,则先进入hdfs系统:hdfs dfs -ls (要有hadoop user)
访问hadoop集群文件: hdsf://HDFS80043/**** , 如:hdfs://HDFS80043/spark-python/pyspark_env.zip
3)yarn 是资源管理器 -
hadoop与spark计算区别
1)hadoop 的map过程写磁盘
2)spark 内存计算, DAG。
spark集群零散知识
最新推荐文章于 2022-08-11 17:32:09 发布
本文详细介绍了如何在目标机器上部署Hadoop和Spark,包括直接复制软件包、配置python和java路径等步骤。同时,深入解析了Spark的client和cluster运行模式,以及与Hadoop在内存管理和计算方式上的不同。此外,还提供了重要的配置文件说明和hdfs与yarn的工作原理。

1948

被折叠的 条评论
为什么被折叠?



