Hadoop 是 Apache 旗下的开源的分布式计算平台,它可以运行在计算机集群之上,提供可靠的、可扩展的分布式计算功能。Hadoop 的核心是分布式文件系统(HDFS)和并行编程框架 MapReduce。
历史
Hadoop 与三篇论文密不可分:
- 2003年,谷歌发布的分布式文件系统 GFS 的论文,可以用于解决海量数据存储的问题。
- 2004年,谷歌发布了 MapReduce 的论文,可以用于解决海量数据计算的问题。
- 2006年,谷歌发布了 BigTable 的论文,它是以 GFS 为底层数据存储的分布式存储系统。
GFS、MapReduce、BigTable 就是我们经常说的“三辆马车”。Hadoop 与这三篇论文的关系是这样的:
- Hadoop 中的 HDFS 是 GFS 的开源实现;
- Hadoop 中的 MapReduce 是谷歌 MapReduce 的开源实现;
- Hadoop 中的 HBase 是谷歌 BigTable 的开源实现。
Hadoop 特点
Hadoop 特点有:
- 跨平台性:hadoop是基于java语言开发的,有很好的跨平台性,可以运行在Linux平台上;
- 高可靠性:hadoop中的HDFS是分布式文件系统,可以将海量数据分布冗余存储在不同的机器节点上,即使是某个机器副本上发生故障,其他的机器副本也能正常运行;
- 高容错性:HDFS把文件分布存储在很多不同的机器节点上,能实现自动保存多个副本,因此某个节点上的任务失败后也能实现自动重新分配;
- 高效性:hadoop的核心组件HDFS和MapReduce,一个负责分布式存储一个负责分布式处理,能够处理PB级别的数据;
- 低成本与高扩展:hadoop在廉价的计算机集群上就可以运行,因此成本比较低,并且可以扩展到几千个计算机节点上,完成海量数据的存储和计算。


2万+

被折叠的 条评论
为什么被折叠?



