spark集群零散知识

本文详细介绍了如何在目标机器上部署Hadoop和Spark,包括直接复制软件包、配置python和java路径等步骤。同时,深入解析了Spark的client和cluster运行模式,以及与Hadoop在内存管理和计算方式上的不同。此外,还提供了重要的配置文件说明和hdfs与yarn的工作原理。
  1. 关于安装
    可直接copy节点上的hadoop包,和spark包,到目的机器,就可以执行。
    但里面的python,java 路径需要在spark里面指定。

  2. 关于运行
    1)clinet 模式,本地运行测试,driver/excut都在本地,日志也是在本地。
    2)cluster 模式,driver在集群的master上面 ,查看日志的方式:yarn logs -applicationId

  3. 关于内存
    1)driver 一个driver, 多个excute. 即master, excute节点。
    2) driver ,一般是最终结果要拉回driver. 一般的create ,insert 这种的话,不需要dirver拉回数据,所以内存也不需要太大。

  4. 关于重要配置文件
    1)spark里面一般查看conf文件,spark-defaluts.sh spark-en.sh ,可以配置driver内存,excute个数
    2)hadoop,/usr/local/service/hadoop/etc/hadoop 目录下, core-site.xml, hdfs-site.xml, yarn-site.xml 。 这里面可以看master ip

  5. 关于hdfs与yarn
    1)hdfs是文件存储系统,我们这边用的是cos(腾讯云的),cos对外是路径,可以写文件,和读取文件。
    2)如果需要把东西copy到hdfs,则先进入hdfs系统:hdfs dfs -ls (要有hadoop user)
    访问hadoop集群文件: hdsf://HDFS80043/**** , 如:hdfs://HDFS80043/spark-python/pyspark_env.zip
    3)yarn 是资源管理器

  6. hadoop与spark计算区别
    1)hadoop 的map过程写磁盘
    2)spark 内存计算, DAG。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值