大数据--hadoop生态2--hadoop总结

最新推荐文章于 2026-02-27 02:09:52 发布

原创最新推荐文章于 2026-02-27 02:09:52 发布 · 279 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据同时被 2 个专栏收录

78 篇文章

订阅专栏

35 篇文章

订阅专栏

本文详细介绍了Hadoop的特性，包括高可靠性和可扩展性，并概述了Hadoop 2.x的组成，重点讲解了MapReduce的Map和Reduce阶段。还探讨了Hadoop的三种安装方式，包括单机、伪分布式和分布式模式，以及Hadoop集群的配置和启动步骤。此外，文章对比了Hadoop 1.x和2.x的架构差异。

目录

一：Hadoop特性

二：Hadoop 2.x组成

三：hadoop的三种安装方式

四：Hadoop集群的配置和启动

五：一个基本的Hadoop集群中的节点主要有

六：hadoop1.x和2.x架构

七：hadoop1.0和hadoop2.0区别

一：Hadoop特性

高可靠性，高效性，高可扩展性，高容错性，成本低，运行在Linux操作系统上，支持多种编程语言。

二：Hadoop 2.x组成

其中MapReduce将计算过程分为两个阶段：Map和Reduce

1) Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

三：hadoop的三种安装方式

1）单机模式：只在一台机器上运行，存储使用本地文件系统，没有采用分布式文件系统HDFS；

2）伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上；

3）分布式模式：存储采用分布式文件系统HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。

四：Hadoop集群的配置和启动

配置：

1）hadoop-env.sh: 配置jdk路径

2) core-site.xml : 指定namenode的地址，指定hadoop运行时产生文件的存储目录。

３）hdfs-site.xml :指定hdfs副本数量

启动

1)格式化namenode： bin/hdfs namenode -format(第一次启动时候需要格式化)

2)启动namenode: sbin/hadoop-daemon.sh start namenode

3)启动DataNode: sbin/hadoop-daemon.sh start datanode

五：一个基本的Hadoop集群中的节点主要有

NameNode:负责协调集群中的数据存储

DataNode: 存储被拆分的数据块

JobTracker：协调数据计算任务

TaskTracker：负责执行由JobTracker指派的任务。

SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息。

六：hadoop1.x和2.x架构

hadoop2.x

七：hadoop1.0和hadoop2.0区别

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。