大数据架构:数据采集-处理-分析-工具介绍hadoop

Hadoop 是 Apache 旗下的开源的分布式计算平台,它可以运行在计算机集群之上,提供可靠的、可扩展的分布式计算功能。Hadoop 的核心是分布式文件系统(HDFS)和并行编程框架 MapReduce。

历史

Hadoop 与三篇论文密不可分:

  • 2003年,谷歌发布的分布式文件系统 GFS 的论文,可以用于解决海量数据存储的问题。
  • 2004年,谷歌发布了 MapReduce 的论文,可以用于解决海量数据计算的问题。
  • 2006年,谷歌发布了 BigTable 的论文,它是以 GFS 为底层数据存储的分布式存储系统。

GFS、MapReduce、BigTable 就是我们经常说的“三辆马车”。Hadoop 与这三篇论文的关系是这样的:

  • Hadoop 中的 HDFS 是 GFS 的开源实现;
  • Hadoop 中的 MapReduce 是谷歌 MapReduce 的开源实现;
  • Hadoop 中的 HBase 是谷歌 BigTable 的开源实现。

Hadoop 特点

Hadoop 特点有:

  • 跨平台性:hadoop是基于java语言开发的,有很好的跨平台性,可以运行在Linux平台上;
  • 高可靠性:hadoop中的HDFS是分布式文件系统,可以将海量数据分布冗余存储在不同的机器节点上,即使是某个机器副本上发生故障,其他的机器副本也能正常运行;
  • 高容错性:HDFS把文件分布存储在很多不同的机器节点上,能实现自动保存多个副本,因此某个节点上的任务失败后也能实现自动重新分配;
  • 高效性:hadoop的核心组件HDFS和MapReduce,一个负责分布式存储一个负责分布式处理,能够处理PB级别的数据;
  • 低成本与高扩展:hadoop在廉价的计算机集群上就可以运行,因此成本比较低,并且可以扩展到几千个计算机节点上,完成海量数据的存储和计算。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值