目录
一:Hadoop特性
高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux操作系统上,支持多种编程语言。
二:Hadoop 2.x组成
其中MapReduce将计算过程分为两个阶段:Map和Reduce
1) Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
三:hadoop的三种安装方式
1)单机模式:只在一台机器上运行,存储使用本地文件系统,没有采用分布式文件系统HDFS;
2)伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;
3)分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。
四:Hadoop集群的配置和启动
配置:
1)hadoop-env.sh: 配置jdk路径
2) core-site.xml : 指定namenode的地址,指定hadoop运行时产生文件的存储目录。
3)hdfs-site.xml :指定hdfs副本数量
启动
1)格式化namenode: bin/hdfs namenode -format(第一次启动时候需要格式化)
2)启动namenode: sbin/hadoop-daemon.sh start namenode
3)启动DataNode: sbin/hadoop-daemon.sh start datanode
五:一个基本的Hadoop集群中的节点主要有
NameNode:负责协调集群中的数据存储
DataNode: 存储被拆分的数据块
JobTracker: 协调数据计算任务
TaskTracker:负责执行由JobTracker指派的任务。
SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息。
六:hadoop1.x和2.x架构

hadoop2.x

七:hadoop1.0和hadoop2.0区别


本文详细介绍了Hadoop的特性,包括高可靠性和可扩展性,并概述了Hadoop 2.x的组成,重点讲解了MapReduce的Map和Reduce阶段。还探讨了Hadoop的三种安装方式,包括单机、伪分布式和分布式模式,以及Hadoop集群的配置和启动步骤。此外,文章对比了Hadoop 1.x和2.x的架构差异。

6万+

被折叠的 条评论
为什么被折叠?



