一、Hadoop大数据平台
1、Hadoop 发行版
-
(1) 完全开源的原生的Apache Hadoop
-
(2) Cloudera与Hortonworks公司的CDH和HDP:在Cloudera和Hortonworks合并后,Cloudera公司推出了新一代的数据平台产品CDP Data Center(以下简称为CDP),从2021年1月31日开始,所有Cloudera软件都需要有效的订阅,并且只能通过付费墙进行访问。也就是说CDH各版本都不能免费获取了。
-
(3) Ambari + HDP (在Cloudera和Hortonworks合并后,HDP也不能免费使用了)
-
(4) MapR公司的MapR(已经被HPE收购)
-
(5) AWS亚马逊的EMR
-
(6) 国内华为的fusioninsight
-
(7) 国内星环科技的TDH
CDH (全称:Cloudera’s Distribution Including Apache Hadoop)是由 Cloudera 公司发行的hadoop 软件包,由Cloudera Manager安装监控管理工具和CDH大数据软件包(里面包含了hadoop、hdfs、yarn、hive、spark等许多大数据套件)组成。
2、CM和CDH简介
在安装之前先要梳理一下 CM(Cloudera Manager)和 CDH(Cloudera Distribution Hadoop)的区别:
-
CDH CDH 是由 Cloudera 公司发行的一套 hadoop 软件包,里面包含了hadoop、hdfs、yarn、hive、spark等等一系列稳定的、版本兼容的大数据套件。
-
CM CM 也是 Cloudera 公司开发的一套用于管理和监控 CDH 集群的软件,通过 CM 提供的 web 管理页面操作就可以轻松的管理和监控CDH 集群环境。
3、使用CM+CDH的原因
-
当集群数量有上百台或上千台机器时使用CDH等工具可以快速的安装和扩容
-
CDH曾经开源免费,从网上可以找到免费的软件安装包
二、安装准备
1、服务器准备
准备好 N 台服务器,我这里用了 3 台机器,分别如下:
| IP | 主机名 | CPU | 内存 | 硬盘 | 系统 |
|---|---|---|---|---|---|
| 192.168.122.101 | master.bigdata | 4核 | 16G | 50G | CentOS7.x |
| 192.168.122.102 | node1.bigdata | 4核 | 16G | 50G | CentOS7.x |
| 192.168.122.103 | node2.bigdata | 4核 | 16G | 50G | CentOS7.x |
注:所有机器的 root 用户登录密码要保持一致。
2、软件包准备
(1) 下载如下软件安装包:
-
JDK1.8安装包
-
MySQL5.7安装包
-
CM6.3.1安装包
-
CDH6.3.2软件包
(2) 下载地址:
-
百度云盘链接:链接: https://pan.baidu.com/s/1w5NB3JHPgXNntProifoS5w 提取码: qp31
-
腾讯云盘链接:https://share.weiyu

本文详细介绍了如何在多台服务器上安装和配置Cloudera CDH,包括CM和CDH的区别、软件包准备、搭建本地YUM仓库、主机名设置、防火墙和SELinux管理、JDK和MySQL安装、CM服务安装与数据库配置,以及最终的CM控制台操作。

585

被折叠的 条评论
为什么被折叠?



