spark集群零散知识

最新推荐文章于 2022-08-11 17:32:09 发布

原创最新推荐文章于 2022-08-11 17:32:09 发布 · 254 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

spark 专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍了如何在目标机器上部署Hadoop和Spark，包括直接复制软件包、配置python和java路径等步骤。同时，深入解析了Spark的client和cluster运行模式，以及与Hadoop在内存管理和计算方式上的不同。此外，还提供了重要的配置文件说明和hdfs与yarn的工作原理。

关于安装
可直接copy节点上的hadoop包，和spark包，到目的机器，就可以执行。
但里面的python,java 路径需要在spark里面指定。
关于运行
1）clinet 模式，本地运行测试，driver/excut都在本地，日志也是在本地。
2）cluster 模式，driver在集群的master上面，查看日志的方式：yarn logs -applicationId
关于内存
1）driver 一个driver，多个excute. 即master， excute节点。
2) driver ，一般是最终结果要拉回driver. 一般的create ，insert　这种的话，不需要dirver拉回数据，所以内存也不需要太大。
关于重要配置文件
1）spark里面一般查看conf文件，spark-defaluts.sh spark-en.sh ，可以配置driver内存，excute个数
2）hadoop，/usr/local/service/hadoop/etc/hadoop 目录下， core-site.xml, hdfs-site.xml, yarn-site.xml 。这里面可以看master ip
关于hdfs与yarn
1）hdfs是文件存储系统，我们这边用的是cos(腾讯云的)，cos对外是路径，可以写文件，和读取文件。
2）如果需要把东西copy到hdfs，则先进入hdfs系统：hdfs dfs -ls (要有hadoop user)
访问hadoop集群文件： hdsf://HDFS80043/**** , 如：hdfs://HDFS80043/spark-python/pyspark_env.zip
3）yarn 是资源管理器
hadoop与spark计算区别
1）hadoop 的map过程写磁盘
2）spark 内存计算， DAG。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。